序 


随 着 计算 机 科学 技术 的 飞速 发 展 ， 作 为 计算 机 的 核心 
算 的 进一步 发 展 。 


处 理 器 的 体系 结构 也 经 历 了 从 单 核 、 多 核 到 众 核 的 革命 性 跨越 。 如 今 ，“ 异 构 + 众 核 ” 已 成 为 超级 计算 机 主流 的 体系 结构 ， 并 将 引领 未 来 也 级 计 


然而 ， 这 种 较为 “前 卫 ” 的 结构 设计 ， 也 给 编程 者 带 来 了 很 大 的 挑战 : 他 们 不 得 不 面 对 更 为 复杂 的 底层 结构 和 更 多 的 存储 层次 ， 以 往 的 算法 设计 和 程序 代码 也 不 得 不 随 之 调整 。 在 这 种 情况 下 ， 诸 如 
CUDA、OpenCL、OpenACC 等 新 的 异 构 并 行 编程 语言 应 运 而 生 。 其 中 ，OpenACC 是 一 种 极 具 发 展 前 景 的 编程 模型 ， 其 具有 使 用 方便 、 代 码 改 动 小 、 平 台 适 用 范围 广 的 特性 ， 将 为 新 时 代 的 编程 者 们 带 来 极 大 
的 帮助 。 


OpenACC 虽 然 有 着 易学 易 用 的 特点 ， 但 是 要 想 全 面 掌握 其 丰富 的 语法 特性 和 使 用 技巧 ， 以 编写 高 效 的 程序 ， 还 是 需要 一 本 有 权威 性 、 实 用 性 的 技术 书籍 来 指导 。 本 书 作者 何 沧 平 博 士 是 华为 高 级 系统 设 
计 工 程 师 ， 也 是 OpenACC QQ 群 的 群 主 ， 具 有 多 年 的 程序 开发 经 验 ， 一 直 致力 于 OpenACC 的 发 展 与 推广 ， 在 并 行 计算 应 用 领域 有 着 很 深 的 造 谓 和 独到 的 见解 。 


对 于 想 要 掌握 OpenACC 使 用 技巧 和 编程 精髓 的 读者 来 说 ， 本 书 是 一 本 非常 具有 参考 价值 的 学 习 教 程 。 与 传统 的 技术 书籍 相 比 ， 本 书 更 加 注重 内 容 的 可 读 性 和 易 用 性 ， 逻 辑 清 晰 ， 内 容 全 面 准确 ， 且 更 加 
注重 编程 实践 ， 有 大 量 C/C++/Fortran 的 完整 代码 实例 ， 便 于 读者 学 习 和 实践 。 作 为 第 一 本 中 文 的 OpenACC 技 术 书 籍 ， 可 谓 为 国内 的 编程 学 习 者 带 来 了 福音 。 


特别 值得 一 提 的 是 ， 本 书 首次 引入 了 OpenACC 在 “神威 . 太湖 之 光 ” 超 级 计算 机 上 应 用 情况 的 章节 。 神 威 . 太湖 之 光 是 2016 年 全 球 TOP500 排 名 第 一 的 超级 计算 机 ， 配 备 了 完全 由 国人 自主 研发 的 异 构 
众 核 处 理 器 。 其 超 强 的 计算 速度 成 为 了 高 性 能 计算 应 用 的 强力 助 推 。 结 合 应 用 的 特点 和 处 理 器 独特 的 结构 设计 ， 系 统 对 OpenACC 进 行 了 扩展 。 目 前 ， 该 系统 完成 了 气候 气象 、 航 空 航天 、 船 舶 工程 、 药 物 设 
计 等 十 多 个 领域 的 大 型 应 用 课题 ， 其 中 三 个 高 性 能 计算 应 用 入 转 “ 蕊 登 贝 尔 奖 ”。 这 是 我 国 近 30 年 来 首次 入 围 该 奖项 。 在 这 些 应 用 的 开发 过 程 中 ，OpenACC 起 到 了 关键 作用 。 


BAER 


国家 并 行 计算 机 工程 技术 研究 中 心 


2010 年 以 来 ， 中 国 超级 计算 机 建设 突飞猛进 ， 欣 欣 向 荣 。 一 个 原因 是 国力 强盛 ， 大 力 投资 高 新 科技 ; 另 一 个 原因 是 整体 科技 水 平 提高 ， 需 求 旺盛 。 天 气 预报 、 石 油 物探 、 工 程 仿真 、 基 因 测 序 等 传统 应 
用 对 计算 资源 的 需求 持续 增长 ， 以 深度 学 习 为 代表 的 人 工 智能 大 爆发 ， 资 金 雄厚 的 互联 网 公司 对 计算 能 力 极度 渴 求 。 超 级 计算 机 的 建设 、 应 用 主 战 场 正在 从 教育 科研 单位 转向 科技 企业 。 


为 什么 要 写 这 本 书 
面 对 浩 如 烟 海 的 数据 ，CPU 已 经 力不从心 ， 因 此 世界 领先 的 超级 计算 机 都 装备 大 量 的 加 速 器 或 者 众 核 处 理 器 。 
目前 主流 加 速 器 产品 是 NVIDIA GPU, AMD GPU 和 Intel 至 强 Phi 协 处 理 器 。 三 种 加 速 器 使 用 的 编程 语言 分 别 为 CUDA C/CUDA Fortran、OpenCL 和 MIC 导 语 。 加 速 器 计算 有 4 个 困难 。 
一 是 CUDA/OpenCL 等 低级 语言 编程 难度 大 ， 且 需要 深入 了 解 加 速 器 的 硬件 结构 。 而 大 部 分 的 用 户 不 是 专业 编程 人 员 ， 学 习 一 门 新 的 编程 技术 将 耗费 大 量 时 间 。 
二 是 加 速 器 的 计算 模型 与 CPU 差 别 很 大 ， 移 植 昌 程 序 需 要 几乎 完全 重 写 。 大 量 的 旧 程 序 在 性 能 优化 上 已 经 千 锤 百 炼 ， 稳 定性 上 也 久 经 考验 ， 完 全 重 写 是 不 可 完成 的 任务 。 
三 是 低级 编程 语言 开发 的 程序 与 硬件 结构 密切 相关 ， 硬 件 升级 时 必须 升级 软件 ， 否 则 将 损失 性 能 。 而 硬件 每 隔 两 三 年 就 升级 一 次 ， 频 繁 的 软件 升级 将 给 用 户 带 来 巨大 负担 。 


四 是 投资 方向 难以 选择 。 三 种 加 速 器 均 有 自己 独特 的 编程 语言 ， 且 互 不 兼容 。 用 户 在 投资 建设 硬件 平台 、 选 择 软件 开发 语言 时 就 会 陷入 困境 ， 不 知 三 种 设备 中 哪个 会 在 竞争 中 胜出 。 如 果 所 选 加 速 器 将 
来 落 败 ， 将 会 带 来 巨大 损失 ; 而 犹 移 不 决 又 将 错过 技术 变革 的 历史 机 遇 。 


OpenACC 应 运 而 生 ， 可 以 克服 这 4 个 困难 。OpenACC 的 编程 机 制 是 ， 程 序 员 只 在 原 程序 中 添加 少量 编译 标识 ， 编 译 器 根据 作者 的 意图 自动 产生 低级 语言 代码 。 无 须 学 习 新 的 编程 语言 和 加 速 器 硬件 知 
识 ， 便 能 迅速 掌握 。 只 添加 少量 编译 标识 ， 不 破坏 原 代码 ， 开 发 速度 快 ， 既 可 并 行 执行 又 可 恢复 串 行 执行 。 在 硬件 更 新 时 ， 重 新 编译 一 次 代码 即 可 ， 不 必 手 工 修改 代码 。OpenACC 标 准 制定 时 就 考虑 了 目前 
及 将 来 的 多 种 加 速 器 产品 ， 同 一 份 代码 可 以 在 多 种 加 速 器 设备 上 编译 、 运 行 ， 无 成 本 切换 硬件 平台 。 掌 握 OpenACC 后 ， 编 写 程序 省 时 、 省 力 、 省 心 。 


本 书 特 色 


笔者 学 习 超 算 技术 时 有 过 苦 泪 : 教材 一 上 来 就 讲 技术 细节 ， 只 能 机 械 地 学 习 ， 不 清楚 这 些 算法 、 语 法 要 解决 什么 问题 ， 花 费 巨 大 精力 后 却 发 现 解决 不 了 自己 的 难题 ; 新 技术 的 资料 往往 是 英文 的 ， 而 且 
碎 ， 还 不 一 定 准确 ， 收 集 、 学 习 成 本 很 高 ， 求 助 无 门 ; 科学 计算 领域 的 祖师 语言 Fortran 现 在 有 点 小 众 ， 新 技术 资料 更 少 。 为 节省 读者 时 间 ， 本 书 特别 重视 易 读 性 、 易 用 性 ， 具 体 有 如 下 特点 。 


A 


. 第 一 本 中 文 OpenACC 技 术 书 籍 ， 方 便 国内 读者 系统 阅读 ， 快 速 掌握 。 

-Am EA: 本 书 尾 盖 OpenACC 的 所 有 特性 ， 重 要 特性 结合 例子 详细 讲解 ， 不 常用 的 特性 列 出 标准 定义 ， 方 便 查找 。 对 特性 、 功 能 的 描述 均 来 自 OpenACC 规 范 ， 并 用 实例 验证 ， 确 保 准 确 。 

大 量 的 例子 : 书 中 的 示例 代码 超过 160 个 ， 不 是 代码 片断 ， 而 是 完整 代码 ， 拿 来 即 用 。 全 部 由 笔者 编写 、 测 试 ， 运 行 无 报错 。 

: 兼顾 C/C++ 和 Fortrtran: 以 C/C++ 为 主 来 讲解 ， 但 所 有 的 例子 都 有 Fortran 版 的 代码 ，Fortran 专 用 特性 会 详细 讲解 。 物 理 、 气 象 等 领域 积累 的 优秀 Fortran 代 码 可 以 借 此 移植 到 新 硬件 上 ， 重 焕 生 机 。 

` 阅读 轻松 : 按照 并 行程 序 的 编写 、 调 优 顺序 ， 先 交代 各 阶段 面临 的 问题 ， 然 后 自然 引入 OpenACC 提 供 的 解决 办 法 ， 最 后 实测 验证 效果 。 一 切 顺 理 成 章 ， 读 者 不 会 有 云 里 雾 里 的 感觉 。 
读者 对 象 

. 科学 家 : 迅速 改造 旧 程序 ， 快 速 编写 新 的 原型 程序 验证 算法 、 理 论 ， 将 更 多 的 时 间 投 入 到 高 价值 的 科研 创新 中 去 。 

. 企业 程序 员 : 一 套 程序 适 配 多 种 运行 平台 ， 维 护 简单 ; 性 能 敏感 的 部 分 用 CUDA 等 低层 语言 编写 ， 性 能 不 敏感 部 分 用 OpenACC 编 写 ， 相 互 配合 ， 兼 得 程序 性 能 和 开发 效率 。 

. 本 科 生 、 研 究 生 : 花 最 少 的 时 间 掌 握 一 门 计算 工具 ， 省 出 时 间 学 习 更 多 的 知识 。 


如 何 阅读 本 书 


第 1 章 介绍 超级 计算 技术 的 发 展 趋势 和 并 行 编程 概况 ， 可 以 从 中 了 解 OpenACC 的 作用 。 没 有 CUDA C 基 础 的 读者 能 够 掌握 基本 概念 ， 便 于 深入 理解 OpenACC 的 并 行 化 技术 。 第 2 章 介 绍 OpenACC 语 言 的 设 
计 思 路 。 第 3~4 章 是 本 书 的 核心 ， 将 计算 部 分 并 行 化 ， 并 将 数据 传递 时 间 减 到 最 少 。 至 此 ， 读 者 已 经 能 够 编写 性 能 良好 的 OpenACC 程 序 。 第 5~7 章 介绍 高 级 并 行 技术 ， 以 进行 极致 性 能 优化 ， 以 及 与 CUDA 
C/CUDA Fottran 和 各 类 库 的 混合 编程 。 第 8 章 给 出 OpenACC 规 定 的 所 有 运行 时 例 程 ， 不 用 细 读 ， 用 到 时 再 参考 。 第 9 章 指 导 部 署 开发 环境 ， 以 便 快速 上 手 。 
勘误 和 支持 

本 人 水 平 有 限 ， 错 误 与 疏漏 在 所 难免 ， 是 请 批评 指正 。 联 系 笔者 请 发 送 电 子 邮 件 至 hpcfan(@foxmail.com。 更 多 技术 资源 请 访问 www.epujisuan.com。 技 术 交 流 QQ 群 284876008 (将 满 ) 、564520462， 欢 迎 
加 入 。 
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感谢 国家 并 行 计算 机 工程 技术 研究 中 心 漆 锋 滨 老 师 撰写 第 10 章 ， 并 为 本 书 作 序 。 感 谢 PGI 美 女工 程 师 王 珍 、 帅 气 工程 师爷 再 计 、Daniel Tian、 资 深 专家 Mathew Colgrove 的 技术 支持 。 感 谢 机 械 工 业 出 版 社 
的 策划 编辑 高 婧 雅 尽心 协调 与 支持 。 
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第 1 章 “” 并行 编程 概况 


对 绝 大 多 数 人 而 言 ， 编 程 语言 只 是 一 个 工具 ， 讲 究 简 单 高 效 。 科 学 家 的 主要 精力 应 该 用 在 科研 创新 活动 上 ， 编 程 工作 仅仅 是 用 来 验证 创新 的 理论 ， 编 程 水 平 再 高 也 不 可 能 获得 诺 贝 尔 奖 。 对 学 生 和 企业 


程序 员 而 言 ， 技 术 无 穷尽 ， 永 远 学 不 完 ， 不 用 即 忘 ， 应 该 认 清 技术 发 展 方向 ， 学 习 有 前 途 的 技术 ， 不 浪费 青春 年 华 。 


OpenACC 语 言 专 为 超级 计算 机 设计 ， 因 此 读者 需要 了 解 超级 计算 机 的 技术 演进 方向 ， 特 别 是 主流 加 速 器 的 体系 架构 、 编 程 模 型 ， 看 清 OpenACC 的 应 用 场景 ， 有 的 放 矢 。 普 通读 者 虽然 不 会 用 到 大 型 机 
群 ， 但 小 型 机 群 甚至 单 台 服务 器 、 普 通 显 卡 的 计算 模式 都 是 相同 的 。 


最 近 几 年 的 著名 超级 计算 机 ( 见 附录 A) 均 采 用 加 束 器 作为 主要 计算 部 件 ， 可 预见 未 来 几 年 的 上 层 应 用 仍 将 围绕 加 速 器 展开 。 


1.1 加速 器 严 品 


超级 计算 机 的 加 速 器 历史 上 有 多 种 ， 本 节 只 介绍 当前 流行 的 两 种 : 英 伟 达 GPU 和 英特尔 融 核 处 理 器 。 加 速 器 的 物理 形态 是 PCle 板 卡 ， 样 子 大 致 如 图 1.1 所 示 ， 图 1.2 是 拆 掉 外 壳 后 的 样子 ， 正 中 央 的 是 
GPU 蕊 片 ， 芯 片 周围 的 小 黑 块 是 显存 颗粒 ， 金 黄色 的 边缘 处 是 与 PCle 连 接 的 金 手 指 ， 通 过 PCle 插 槽 与 CPU 相 连 。 图 1.3 中 的 机 架 式 服务 器 左下 部 装 有 4 块 GPU 卡 ， 图 1.4 是 服务 器 的 主板 俯视 图 ， 箭 头 处 就 是 4 
个 PCle 揪 槽 。 


图 1.1 ” 英 伟 达 Tesla GPU! 


图 1.2” 英 伟 达 GPU 内 部 构造 


图 1.3 ”GPU 服务 器 吕 
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图 1.4 GPU 服务 器 的 主板 


从 逻辑 关系 上 来 看 ， 目 前 市 场 在 售 的 英特尔 服务 器 CPU 中 已 经 集成 了 内 存 控制 器 和 PCle 通 道 。2 颗 CPU 通过 1 个 或 2 个 QPI 接 口 连接 ，CPU 通 过 内 置 的 内 存 控制 器 连接 DDR3 或 DDR4 内 存 条 ，GPU 加 速 器 
通过 PCle 总 线 与 CPU 相连 (图 1.5) 。2016 年 6 月 主流 的 英特尔 至 强 E5-2600 v3 和 E5-2600 v4 CPU 每 颗 拥 有 40 个 PCle Lan， 而 每 块 GPU 的 接口 需要 16 个 PCle Lan， 因 此 每 颗 CPU 上 最 多 全 速 挂 载 2 块 
GPU。 有 些 服 务 器 的 PClex16 揪 模 上 只 安排 x8， 甚 至 x4 的 信息 速率 ， 可 以 挂 载 更 多 的 GPU。 


图 1.5 ”加速器 在 服务 器 上 的 还 辑 位 置 


英特尔 融 核 处 理 器 在 服务 器 上 的 位 置 与 GPU 一 样 ， 不 再 玖 述 。 


[1] 图 片 来 自 www.nvidia.com。 


[2] 图 片 来 自 www.supetmicto.otg.cn。 


1.2 并 行 编程 语言 


在 并 行 计算 发 展 史上 出 现 过 多 种 并 行 编程 语言 ， 至 今 仍 在 使 用 的 只 剩 几 种 ， 它 们 各 有 特色 。 
(1) Pthreads 


20 世 纪 70 年 代 ， 贝 尔 实验 室 发 明了 UNIX， 并 于 20 世 纪 80 年 代 向 美国 各 大 高 校 分 发 V7 版 的 源码 以 做 研究 。 加 利 福 尼 亚 大 学 伯克利 分 校 在 V7 的 基础 上 开发 了 BSD UNIX。 后 来 很 多 商业 厂家 意识 到 UNIX 
的 价值 也 纷纷 以 贝尔 实验 室 的 System V 或 BSD 为 基础 来 开发 自己 的 UNIX， 较 著名 的 有 Sun OS、AIX、VMS。 随 着 操作 系统 的 增多 ， 应 用 程序 的 适 配 性 工作 越 来 越 繁 重 。 为 了 提高 UNIX 环 境 下 应 用 程序 的 
可 迁移 性 ， 电 气 和 电子 工程 师 协 会 (Institute of Electrical and Electronics Engineers, IEEE) 设计 了 POSIX 标 准 。 然 而 ，POSIX 并 不 局 限于 UNIX， 许 多 其 他 的 操作 系统 也 支持 POSIX 标 准 。POSIX.1 已 经 
被 国际 标准 化 组 织 所 接受 ，POSIX 已 发 展 成 为 一 个 非常 庞大 的 标准 族 ， 一 直 处 在 发 展 之 中 。 


POSIX 线 程 (POSIX threads, Pthreads) ， 是 线程 的 POSIX 标 准 。 该 标准 定义 了 创建 和 操纵 线程 的 一 整套 接口 。 在 类 UNIX 操 作 系统 (UNIX, Linux, Mac OS X 等 ) 中， 都 使 用 Pthreads 作 为 操作 系 
统 的 线程 。Pthreads 用 来 开发 与 操作 系统 紧密 相关 的 应 用 程序 ， 管 理 粒 度 很 细 ， 例 如 线程 的 创建 与 销毁 、 线 程 锁 、 线 程 属性 、 线 程 优先 级 、 线 程 间 通 信 等 琐碎 操 作 均 需要 程序 员 安排 。 对 科学 与 工程 类 计算 
程序 来 说 ， 程 序 员 的 精力 应 集中 在 业务 模型 和 代码 算法 上 ， 不 应 浪费 在 底层 代码 细节 上 。 

里 然 Pthreads 不 适合 编写 高 性 能 计算 程序 ， 但 它 多 线程 并 发 的 设计 理念 启发 了 其 他 并 行 语言 。 

(2) OpenMP 

OpenMP 是 由 一 些 大 型 IT 厂商 和 一 些 学 术 机 构 组 成 的 非 盈利 组 织 ， 官 网 是 www.openmp.org。 永 久 成 员 包括 AMD、CAPS-Entreprise、Convey Computer, Cray, Fujitsu, HP, IBM, Intel, 


NEC, NVIDIA, Oracle Corporation, Red Hat, ST Microelectronics, Texas Instruments; 正式 成 员 是 对 OpenMP 标 准 感 兴 趣 ， 但 不 生产 销售 相关 产品 的 组 织 ， 例 如 ANL、ASC/LLNL、BSC、 
cOMPunity, EPCC, LANL, NASA, ORNL, RWTH Aachen University, SNL-Sandia National Lab, Texas Advanced Computing Center, University of Houston, 


计算 热点 都 是 在 循环 上 ，OpenMP 的 并 行 化 思路 是 将 循环 的 迭代 步 分 摊 到 多 个 线程 上 ， 每 个 线程 只 承担 一 部 分 计算 任务 ， 循 环 运行 的 墙 上 时 间 (从 开始 到 结束 的 自然 流逝 时 间 ) 自然 也 就 减少 了 。 分 割 
方法 是 在 循环 上 面 添加 一 些 预 处 理 标记 (图 1.18) ， 编 译 器 识别 到 这 些 标记 以 后 ， 将 关联 的 循环 翻译 成 并 行 代码 ， 然 后 再 与 剩余 的 串 行 代码 合并 起 来 编译 、 链 接 成 可 执行 程序 。 


用 OpenMP 将 该 循环 通过 多 线程 进行 任务 E 


void main() void main 
{ j { 
double Res[1000]; V double Res M000]; 
for(int i-20;i«1000;1i-r-*) #pragma omp parallel for 
( for(int 1=0;1<1000;1++) 
do huge comp (Res[i]); t 
do huge comp (Res[i]); 
} 
BAT ALP 并 行程 序 


图 1.18 ”OpenMP 的 并 行 化 模式 


器 标记 ， 仍 然 编译 成 串 行 版 本 。 既 不 破坏 原 有 代码 ， 开 发 速度 又 快 ， 省 时 省 力 。 
(3) CUDA 


CUDA (Compute Unified Device Architecture) 是 英 伟 达 公 司 设计 的 GPU 并 行 编程 语言 ， 一 经 推出 就 引发 了 GPU 通 用 计算 研究 热潮 。CUDA 是 闭 源 的 ， 只 能 运行 在 英 伟 达 的 产品 上 。CUDA 
C/C++ 是 对 C/C++ 语言 的 扩展 ， 添 加 了 一 些 数 据 类 型 、 库 函数 ， 并 定义 一 种 新 的 浮 数 调用 形式 。CUDA 起 初 支持 C 和 少量 C++ 特 性 ， 后 来 逐渐 提高 对 C+ + 的 支持 度 。 从 CUDA 3.0 开 始 与 PG 合作 支持 
Fortran。CUDA 语 言 还 可 以 细 分 为 CUDA C/C++, CUDA Fortran， 本 书 成 稿 时 的 CUDA C/C++ 最 新 版 本 是 7.5，8.0 版 本 即将 发 布 。CUDA Fortran 没 有 版 本 号 ， 只 是 随 着 PGI 编 译 器 的 升级 而 增加 新 特 
性 。1.3 节 会 介绍 CUDA C/C++ 的 编程 模型 和 一 些 示例 代码 ，CUDA Fortran 的 详细 情况 可 以 参考 官网 https://developer.nvidia.com/cuda-fortran， 网 络 上 有 英 伟 达 工程 师 撰写 的 图 书 《Best Practices 
for Efficient CUDA Fortran Programming》 和 中 文 翻译 版 《CUDA-Fortran 高 效 编程 实践 》， 此 处 不 展开 介绍 。 

(4) OpenCL 


OpenCL (Open Computing Language， 开 放 计 算 语言 ) 是 一 个 面向 异 构 系统 并 行 编程 的 免费 标准 ， 支 持 多 种 多 样 的 设备 ， 包 括 但 不 限于 CPU、GPU、 数 字 信 号 处 理 器 (DSP) 。OpencCL 的 优势 是 
一 套 代码 多 处 运行 ， 只 要 为 新 的 设备 重新 编译 代码 就 可 以 运行 ， 移 植 方 便 。 


OpenCL 由 苹果 公司 首先 提出 ， 随 后 Khronos Group 成 立 相 关 工作 组 ， 以 苹果 草案 为 基础 ， 联 合 业 界 各 大 企业 共同 完成 了 标准 制定 工作 ， 工 作 组 的 成 员 来 自 各 行 各 业 ， 且 都 是 各 自 领域 的 领导 者 ， 成 员 


名 单 请 参见 官网 www.khronos.org/opencl/。 
(5) OpenACC 


这 里 不 多 说 ， 后 面 会 全 面 、 详 细 讲 解 。 


1.3 CUDAC 


本 节 简 要 介绍 CUDA C 编 程 的 相关 概念 ， 使 读者 能 够 看 懂 OpenACC 编 译 过 程 中 出 现 的 CUDA 内 置 变 量 ， 理 解 并 行 线程 的 组 织 方 式 。 如 果 读 者 已 有 CUDA 编 程 经 验 ， 请 跳 过 。 


CPU 用 得 好 好 的 ， 为 什么 要 费心 费力 地 改写 程序 去 到 GPU 上 运行 呢 ? 只 有 一 个 理由 : 跑 得 更 快 。 小 幅 的 性 能 提升 吸引 力 不 够 ， 必 须 有 大 幅 提升 才 值得 采购 新 设备 、 学 习 新 工具 、 设 计 新 算法 。 从 图 1.19 
可 以 看 出 ， 在 双 精 度 浮 点 峰值 和 内 存 带宽 这 两 个 天 键 指标 上 ，GPU 的 性 能 都 达到 同时 期 主力 型 号 CPU 的 5~ 7 倍 。 如 果 利用 得 当 ， 可 以 预期 获得 5~ 7 的 性 能 提升 。 以 前 只 在 CPU 上 运行 ， 计 算 方 法 的 数学 理论 
和 程序 代码 实现 已 经 迭代 发 展 多 年 ， 论 很 大 力气 才能 提速 10%~20%， 提 速 50% 已 经 很 厉害 了 。 简 单 粗暴 地 更 换 硬件 设备 就 能 立刻 提速 几 倍 ， 全 世界 的 科学 家 、 工 程 师 一 拥 而 上 ，GPU 加 速 的 应 用 遍地 开 
伦 。 注 意 ， 评 价 GPU 应 用 性 能 的 时 候 ， 至 少 要 和 2 颗 中 高 端 CPU 相对 ， 并 且 两 种 代码 都 优化 到 最 好 。 任 何 超过 硬件 潜能 的 加 速 结果 都 是 有 问题 的 。 
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图 1.19 ”同时 期 主力 CPU 与 GPU 的 性 能 对 比 目 


那么 问题 来 了 。GPU 的 心 片面 积 与 CPU 差不多 ， 价 格 也 接近 ， 为 什么 性 能 这 么 强悍 呢 ? 图 1.20 是 CPU 和 GPU 心 片 的 组 成 示意 图 ， 左 边 是 一 个 单 核 超 标量 CPU ，4 个 算术 逻辑 单元 (ALU) 承担 着 全 部 计 


算 任务 ， 却 只 占用 一 小 部 分 芯片 面积 。 “控制 ”是 指 分 支 预测 、 乱 序 执 行 等 功能 ， 占 用 芯片 面积 大 而 且 很 费 电 。 服 务 器 CPU 通常 有 三 级 缓存 ， 占 用 的 攻 片 面积 最 大 ， 有 的 型 号 甚 全 高达 70%6。ALU、 控 制 、 
缓存 都 在 CPU 内 部 ， 大 量 内 存 条 插 在 主板 上 ， 与 CPU 通过 排 线 相 连 。GPU 中 绝 大 部 分 芯片 面积 都 是 计算 核心 (4 行 紧 挨 着 的 小 方块 ， 每 行 12 个 ) ， 带 阴影 的 水 平 小 块 是 控制 单元 ， 控 制 单元 上 面 的 水 平 条 是 
缓存 。 


AHAT 


主板 上 内 存 条 板 卡 上 显存 


图 1.20 CPU ( 左 ) 和 GPU (A) 的 芯片 面积 占用 情况 


通用 CPU 对 追踪 链表 这 样 拥有 复杂 逻辑 控制 的 程序 运行 得 很 好 ， 但 大 规模 的 科学 与 工程 计算 程序 的 流程 控制 都 比较 简单 ，CPU 的 长 处 难以 施展 。 为 了 解释 GPU 如 何 获得 极 高 的 性 能 ， 需 要 先 了 解 一 下 
CPU 中 的 控制 、 缓 企 、 多 线程 的 作用 。 


ALU 承 担 最 终 的 计算 工作 ， 越 多 越 好 。 “控制 ”的 目标 是 预 取 到 正确 的 指令 和 数据 以 保证 流水 线 不 中 断 ， 挖 掘 指令 流 里 的 并 行 度 ， 让 尽量 多 的 部 件 都 在 忙碌 工作 ， 从 而 提高 性 能 。 缓 存 的 作用 是 为 了 填 
补 CPU 频 率 与 内 存 条 频率 的 差距 、 减 小 CPU 与 内 存 条 之 间 数 据 延 时 。 目 前 中 高 端 CPU 的 频率 在 2.0~ 3.2GHz， 而 内 存 条 的 频率 还 处 于 1600MHz、1866MHz、2133MHz， 内 存 条 供应 、 承 接 数据 的 速度 赶 不 
上 CPU 处 理 数据 的 速度 。 由 于 ALU 到 主板 上 内 存 条 的 路 径 较 长 ， 延 时 高 ， 而 如 果 需 要 的 数据 已 经 在 缓存 中 ， 那 么 就 能 有 效 降 低 延 时 ， 提 高 数据 处 理 速 度 。 绥 存 没有 命中 怎么 办 ? 只 能 到 内 存 条 上 取 ， 延 时 
高 。 为 了 进一步 降低 延 时 ， 英 特 尔 CPU 有 超 线程 功能 ， 开 启 后 ， 一 个 CPU 物理 核心 就 变 成 了 两 个 逻辑 核心 ， 两 个 逻辑 核心 分 时 间 片 轮流 占用 物理 核心 资源 。 当 然 了 ， 按 时 间 片 切换 是 有 代价 的 : 换 出 时 要 保 
留 正 在 运行 的 程序 的 现场 ， 换 入 时 再 恢复 现场 以 便 接 着 上 次 继续 运行 。 在 缓存 命中 率 比 较 低 的 情况 下 ， 超 线程 功能 能 够 提高 性 能 。 


GPU 天 生 是 为 并 行 计算 设计 的 : 处 理 图 像 的 大 量 像素 ， 像 素 之 间 相 互 独立 ， 可 以 同时 计算 ， 而 且 没有 复杂 的 流程 跳 转 控制 。 正 如 图 1.19 所 示 ，CPU 的 大 部 分 芯片 面积 都 是 计算 核心 ， 缓 存 和 控制 单元 很 
小 ， 那 么 它 是 怎么 解决 分 支 预 测 、 乱 序 执行 、 数 据 供应 速度 、 存 取 数 据 延 时 这 些 问题 的 呢 ? 


GPU 的 设计 目标 是 大 批量 的 简单 计算 ， 没 有 复杂 的 跳 转 ， 因 此 直接 取消 分 支 预测 、 乱 序 执 行 等 高 级 功能 。 更 进一步 ， 多 个 计算 核心 〈 例 如 32 个 ) 共用 一 个 控制 单元 再 次 削减 控制 单元 占用 的 心 片面 积 。 
这 样 做 的 效果 就 是 : 发 射 一 条 指令 ， 例 如 加 法 ，32 个 计算 核心 步调 一 致 地 做 加 法 ， 只 是 每 个 计算 核心 操作 不 同 的 数据 。 如 果 只 让 第 1 个 计算 核心 做 加 法 ， 那 么 在 第 1 个 计算 核心 做 加 法 运算 的 时 候 ， 剩 余 的 计 
算 核 心 空闲 等 待 。 这 种 情形 下 资源 浪费 ， 性 能 低下 ， 要 尽量 避免 。 让 大 量 计算 核心 空转 的 应 用 程序 不 适合 GPU， 用 CPU 计算 性 能 更 好 。 


计算 核心 与 显存 之 间 的 频率 差异 如 何 填补 ? 特 别 简 单 ， 降 低 计 算 核 心 的 频率 。 考 虑 到 心 片 功 耗 与 频率 的 平方 近似 成 正比 ， 降 低频 率 不 但 能 解决 数据 供应 速度 问题 ， 而 且 能 降低 GPU 的 功 耗 ， 一 举 两 得 。 
从 表 1.1 可 以 看 出 GPU 产品 的 频率 在 562~875MHz， 远 低 于 主力 CPU 的 2.0GHz~3.2GHz。 


最 重要 是 延 时 ，GPU 的 缓存 那么 小 ， 怎 么 解决 访问 显存 的 巨大 延 时 呢 ” 答案 是 多 线程 ， 每 个 计算 核心 分 推 10 个 以 上 的 线程 。 执 行 每 条 指令 之 前 都 要 从 就 绪 队 列 中 挑选 出 一 组 线程 ， 每 组 线程 每 次 只 执行 
一 条 指令 ， 执 行 完毕 立即 到 后 面 排队 。 如 果 恰 巧 碰 上 了 延 时 较 多 的 访 存 操作 ， 那 么 该 线程 进入 等 待 队列 ， 访 存 操作 完成 后 再 转 入 就 绪 队列 。 只 要 线程 足够 多 ， 计 算 核心 总 是 在 忙碌 ， 隐 藏 了 访 存 延 时 。 有 人 
立刻 会 问 ， 这 么 频繁 地 切换 线程 、 保 存 现场 、 恢 复 现 场 也 需 消耗 不 少时 间 吧 ， 会 不 会 得 不 偿 失 呢 ” 实际 上 GPU 线程 切换 瞬间 完成 ， 这 是 因为 每 个 线程 都 有 一 份 独占 资源 (例如 寄存 器 ) ， 不 需要 保存 、 恢 复 
现场 ， 线 程 切换 只 是 计算 核心 使 用 权 的 转移 。 


[1] 图 片 来 自 www.nvidia.com。 


第 2 章 OpenACC 概 览 


2007 年 出 现 的 CUDA C/C++ 语言 引爆 了 GPU 通 用 计算 热潮 ， 但 编程 比较 麻烦 ， 挖 气 硬 件 性 能 需要 很 多 高 超 的 优化 技巧 。 为 了 降低 编程 门槛 ，2011 年 11 月 ，Cray、PGI、CAPS 和 英 伟 达 4 家 公司 联合 推出 
OpenACC 1.0 编 程 标 准 ，2012 年 3 月 PGI 率 先 推出 支持 OpenACC 的 编译 器 PGI Accelerator with OpenACC。PGI 公 司 创 立 于 1989 年 ， 是 一 家 在 高 性 能 计算 领域 很 有 名 望 的 编译 器 和 工具 供应 商 ， 属 于 意 法 半导体 旗 
下 的 全 资 子 公司 。2013 年 6 月 ，OpenACC 2.0 标 准 发 布 。2013 年 7 月 ， 英 伟 达 收购 了 PGI 公 司 ,但 PGI 原 有 品牌 和 体系 得 以 保留 并 继续 正常 运营 ，OpenACC、CUDA Fortran, CUDA x86、GPGPU 等 相关 技术 的 
开发 工作 也 将 继续 。OpenACC 2.0 版 本 功能 已 经 相当 完备 ， 直 到 2015 年 11 月 才 推 出 OpenACC 2.5 版 本 。2013 年 11 月 ，GCC 加 入 OpenACC 组 织 ，2016 年 5 月 推出 的 GCC 6.1 支 持 OpenACC 2.0a 标 准 。 


OpenACC 组 织 的 成 员 均 为 知名 企业 、 高 校 、 科 研 机 构 ， 名 单 见 表 2.1，OpenACC 标 准 的 更 新 、 活 动 、 组 织 成 员 请 访问 其 官网 http://www.openacc.org/。 


表 2.1 OpenACC 组 织 成 员 名 单 
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Allinea NVIDIA 
AMD Oak Ridge National Lab 
CRAY Ine PathScale 
Edinburgh Parallel Computing Center ( EPCC ) Rogue Wave 
Georgia Tech Sandia National Laboratory 
( 23 ) 
University of Houston Swiss National Supercomputer Center 
Indiana University (CSCS) 


Technical Universitat Dresden 
King Abdullah University of Science and Technology 
Tokyo Institute of Technology ( TiTech) 


Louisiana State University TOTAL 
NOAA University of Delaware 


虽然 GCC 也 支持 OpenACC 标 准 ， 但 对 最 新 标准 的 支持 比较 慢 ， 支 持 的 特性 也 比较 少 ， 最 大 的 优势 是 免费 。 详 情 参 见 其 官网 https://gcc.gnu.org/wiki/OpenACC。PGI 编 译 器 对 OpenACC 的 支持 最 快 、 最 完 
善 ， 实 际 上 OpenACC 标 准 的 制定 人 员 和 和 PGI 员工 有 很 大 的 重合 。 该 编译 器 每 月 更 新 1 次 ， 每 个 账户 每 半年 有 1 个 月 的 试用 时 间 ， 下 载 地 址 为 http://www.pgroup.com/resoutces/accel.htm。 对 教育 用 户 收费 较 低 ,， 
对 企业 用 户 收费 较 高 。 目 前 OpenACC 用 户 中 尝鲜 者 较 多 ， 学 生 用 户 和 科学 家 购买 的 动力 不 足 ， 不 利于 推广 。 因 此 ， 英 伟 达 于 2015 年 7 月 发 布 了 全 新 OpenACC 套 件 ， 向 学 术 开 发 者 和 研究 人 员 免 费 提供 


OpenACC 编 译 器 (其 实 还 是 PGI 编 译 器 包装 的 ) ， 同 时 向 商业 用 户 提 供 90 天 免费 试用 版 ， 详 情 见 官网 https://developetr.nvidia.com/openacc-toolkit。 


2.1 OpenACC 规 范 的 内 容 


如 前 所 述 ，OpenACC 并 行 化 的 方式 不 是 重 写 程序 ， 而 是 在 串 行 C/C++ 或 Fortran 代 码 上 添加 一 些 编译 标记 。 支 持 OpenACC 的 编译 器 能 够 看 懂 这 些 标记 ， 并 根据 标记 含义 将 代码 编译 成 并 行程 序 。 对 英 
伟 达 GPU 来 说 ,编译 器 将 C/C++/Fortran 代 码 翻 译 成 CUDA C/C++ 代码 ， 然 后 编译 链接 成 并 行程 序 。 对 AMD GPU 来 说 ， 中 间 代 码 是 OpenCL。 在 OpenACC 语 境 中 ，CPU 称 为 主机 (host) ，GPU 等 加 速 
器 称 为 设备 (device) 。 这 些 术 语 的 使 用 场景 没有 严格 规定 ， 能 准确 表达 含义 即 可 ， 本 书 可 能 会 将 名 词 CPU、 主 机 、GPU、 加 速 器 、 设 备 混用 。 


程序 并 行 化 主要 包含 三 方面 的 工作 ( 表 2.2) : 计算 并 行 化、 数据 管理 、 运 行 时 库 和 环境 变量 。 

并 行 化 的 唯一 目的 是 充分 利用 硬件 资源 来 提高 程序 运行 速度 ， 缩 短 运 行 时 间 。 程 序 中 最 耗 时 间 的 是 循环 ， 计 算 并 行 化 的 目标 是 将 循环 迭代 步 分 散 到 多 个 不 同 的 线程 上 执行 ， 这 些 线程 运行 在 多 个 加 速 器 
核心 上 ， 从 而 将 计算 任务 由 CPU 转移 到 加 速 器 上 ， 减 轻 CPU 的 负担 。 循 环 并 行 化 需要 解决 的 问题 有 这 些 : 指定 将 哪个 循环 并 行 化 ， 以 什么 样 的 方式 组 织 并 行 线程 。OpenACC 使 用 计算 构件 kernels 或 parallel 
来 完成 这 个 工作 ， 看 起 来 是 这 个 样子 (此 处 不 必 深 究 语法 ， 后 有 详 述 ) : 


#pragma acc kernels 
for(i-0; i <N; i++) 


í 
代码 语句 
} 


数据 管理 占用 OpenACC 规 范 的 大 量 篇 幅 ， 语 法 也 多 。 数 据 管理 解决 的 问题 是 : 如 何在 主机 内 存 与 设备 内 存 之 间 传 递 数据 ， 如 何 开辟 、 释 放 设 备 内 存 ， 如 何 管理 变量 的 生存 期 和 作用 域 。 


OpenACC 运 行 时 库 包 含 几 十 个 遂 数 ， 这 些 函数 的 功能 只 有 在 程序 运行 时 才能 实现 ， 在 编译 阶段 不 能 实现 。 例 如 ， 从 几 个 设备 中 选取 当前 设备 ， 初 始 化 设备 ， 分 配 、 释 放 设 备 内 存 ， 在 主机 内 存 与 设备 
内 存 之 间 复 制 数据 ， 等 待 某 个 操作 的 完成 。 OpenACC 规 范 中 规定 了 几 个 环境 变量 ， 用 来 指定 设备 类 型 和 设备 编号 ， 详 见 6.6.1 节 。 


表 2.2 OpenACC 规 范 的 主要 组 成 部 分 
计算 并 行 化 运行 时 库 和 环境 变量 
计算 构件 parallel 设备 类 型 和 设备 编号 
计算 构件 kernels Re fis create, copy, copyin, copyout, present Be M e XH] 
loop 导语 数据 构件 data, update, declare 设备 空间 分 配 与 释放 
组 合 构件 异步 操作 


i= reduction 


ae rere J CUDA C 数据 交互 子 语 环境 变量 指定 设备 
Fi FEE routine 


OpenACC 将 串 行程 序 并 行 化 的 手段 是 添加 一 些 C/C+ + 预 处 理 语句 或 形式 特殊 的 Fortran 注 释 ， 预 处 理 语句 和 特殊 注释 分 为 directive 和 clause 两 类 。 
' ditective 表 示 主 要 功能 ， 每 多 有 且 只 能 有 一 个 ， 作 用 是 给 编译 器 一 些 指导 ， 指 出 哪些 代码 需要 并 行 化 、 需 要 怎么 并 行 化 ， 编 译 器 根据 程序 员 的 指导 信息 生成 最 佳 的 并 行 代 码 。 
.clause 表 示 对 ditective 的 修饰 ， 每 句 可 以 有 零 个 或 多 个 。 

一 个 directive 和 若干 个 clause 就 构成 一 个 功能 模块 construct。 


为 方便 阅读 、 交 流 ， 本 书 将 directive 翻 译 为 导语 ， 将 clause 翻 译 为 子 语 ， 将 construct 翻 译 为 构件 。 网 络 上 有 人 将 directive 翻 译 为 编译 制导 语句 、 编 译 指导 语句 、 指 令 语 、 指 令 等 ， 意 思 都 近似 ， 但 编译 
制导 语句 、 编 译 指导 语句 太 长 ， 使 用 不 便 ， 指 令 语 、 指 令 中 的 指令 一 词 太 普 通 ， 易 混 ， 且 只 有 强制 的 含义 ， 没 有 指导 的 含义 ， 不 太 准 确 。 导 语 一 词 长 度 、 意 思 都 比较 合适 。clause 是 导语 的 修饰 部 分 ， 更 详 
细 地 表明 导语 的 意图 。 有 人 将 clause 翻 译 为 子 句 ， 而 子 句 一 词 含有 小 句子 的 意思 ， 实 际 上 OpenACC 中 的 clause 都 只 有 一 个 词 ， 很 短 ， 不 能 称 为 一 个 句子 。 子 语 一 词 既 说 明了 它 与 导语 的 关系 ， 又 有 一 个 相同 
的 语 字 ， 读 起 来 顺口 。construct 翻 译 为 构件 ， 取 自 建筑 名 词 ， 实 际 功 能 也 很 相像 。 


科学 和 工程 计算 领域 的 大 量 历 史 遗 留 程序 绝 大 部 分 用 C/C++ 和 Fortran 语 言 开发 ， 这 三 种 语言 也 非常 适合 计算 密集 型 的 高 性 能 计算 应 用 ， 因 此 OpenACC 目 前 支持 C/C++ 和 Fortran。 本 书 中 示例 代码 均 
给 出 C 和 Fortran 两 种 版 本 ， 讲 述 以 C 版 本 代码 为 主 ，Fortran 版 只 列 出 代码 ， 特 殊 情 况 下 才 详 细 讲 解 。 对 科学 与 工程 计算 而 言 ， 大 部 分 的 密集 计算 任务 用 C 语 言 就 可 以 完成 ，C++ 中 的 复杂 类 操作 只 占用 少量 
运行 时 间 ， 因 此 只 有 在 绝对 必要 的 时 候 才 用 C++。 对 Fortran 而 言 ，Fortran 77 固 定格 式 很 少 用 于 开发 新 程序 ，Fortran 90/95/2003/2008 自 由 格式 应 用 广泛 ， 所 以 OpenACC 对 Fortran 90 及 以 后 标准 支持 
得 更 好 一 些 ， 本 书 的 示例 也 采用 Fortran 自 由 格式 。 


2.2 OpenACC 2.5 规 范 


本 节 列 出 OpenACC 的 主要 构件 、 导 语 ， 读 完 本 书后 可 以 在 此 处 快速 查阅 语法 ， 不 必 到 正文 中 寻找 零星 的 介绍 。 初 次 阅读 请 跳 过 。 
1. 导 语 一 般 格 式 
C/C++: 


#pragma acc 导语 名 字 [ 子 语 列表 ] 换行 
Fortran 


!$acc 导语 名 字 [ 子 语 列 表 ] 


2.parallel 构 件 


C/C++: 


#pragma acc parallel [ 子 语 列表 ] 换行 
结构 块 


Fortran: 


!$acc parallel [ 子 语 列表 ] 
结构 块 


!Sacc end parallel 


Parallel 构件 的 子 语 : 


async[( 整数 表达 式 ) ] 
wait[ (整数 表达 式 列表 ) ] 
num gangs (整数 表达 式 ) 


num workers (整数 表达 式 ) 
vector length (整数 表达 式 ) 
device type (设备 类 型 列表 ) 
if (条件 ) 

reduction (445 #7: RSF RK) 
copy (变量 列表 ) 

copyin (变量 列表 ) 


copyout (变量 列表 ) 
create (变量 列表 ) 
Present (变量 列表 ) 


deviceptr (变量 列表 ) 
private (变量 列表 ) 
firstprivate (变量 列表 ) 
default (none|present) 


3.kernels 构 件 


LIC: 


#pragma acc kernels [ 子 语 列表 ] 换行 
结构 块 


Fortran : 


!$acc kernels [ 子 语 列表 ] 
结构 块 


!Sacc end kernels 


kernels 构 件 的 子 语 : 


async[ (整数 表达 式 ) ] 
wait[ (整数 表达 式 列 表 ) ] 
num gangs (整数 表达 式 ,) 


num workers (整数 表达 式 ) 
vector length (整数 表达 式 ) 
device type (设备 类 型 列表 ) 
工 ( 条 件 ) 

copy (变量 列表 ) 

copyin (变量 列表 ) 

copyout (变量 列表 ) 

create (变量 列表 ) 


H- 


present (变量 列表 ) 
deviceptr (变量 列表 ) 
default (none|present) 


4.data 构 件 


C/C++: 


#pragma acc data [ 子 语 列表 ] 换行 
结构 块 


Fortran : 


!Sacc data [ 子 语 列表 ] 
结构 块 


!Sacc end data 


data 构 件 的 子 语 : 


f (条 件 ) 

copy (变量 列表 ) 
copyin (变量 列表 ) 
copyout (变量 列表 ) 
create (变量 列表 ) 
present (变量 列表 ) 
deviceptr (变量 列表 ) 


H- 


5.enter data 导 语 


C/C++: 


C/C++: 
#pragma acc enter data 子 语 列表 ”换行 


Fortran: 


1Sacc enter data 子 语 列表 
enter data 的 子 语 : 


if (条 件 ) 

async [ (整数 表达 式 ) J 
wait[ (整数 表达 式 列表 ) ] 
copyin (变量 列表 ) 
create (变量 列表 ) 


6.exit data 导 语 


C/C++: 


#pragma acc exit data 子 语 列表 ”换行 


Fortran: 


'Sacc exit data 子 语 列表 


exit data 的 子 语 : 


if (条件 ) 

async[ (整数 表达 式 ) J 
wait[ (整数 表达 式 列表 ) ] 
copyout (变量 列表 ) 
delete (变量 列表 ) 
finalize 


7.host data&i& 


C/C++: 


#pragma acc host data 子 语 列表 ”换行 
结构 化 块 


Fortran : 


!$acc host data 子 语 列表 
结构 化 块 


!$acc end host data 


host data 的 子 语 : 


use device (变量 列表 ) 


8.loop Siz 


C/C++: 


#pragma acc loop [ 子 语 表 表 ] 换行 
for 循 环 


Fortran : 


!$acc loop [ 子 语 列表 ] 
do 循环 


loop 的 子 语 : 


collapse (n) 

gang [ (gang 参 数列 表 ) ] 
worker [ ( [num:] 整数 表达 式 )] 
vector [ ([length: ] 整数 表达 式 )] 
seq 

auto 

tile (尺寸 表达 式 列表 ) 

device type (设备 类 型 列表 ) 
independent 

private (列表 ) 

reduction (操作 符 : 列 表 ) 


9. 组 合 导语 


C/C++: 


#pragma acc parallel loop [ 子 语 列表 ] 换行 
for 循环 
#pragma acc kernels loop [ 子 语 列表 ] 换行 
for 循环 


Fortran: 


!$acc parallel loop [ 子 语 列表 ] 
do 循环 
[!Sacc end parallel loop] 
!$acc kernels loop [ 子 语 列 表 ] 
do 循环 
[!Sacc end kernels loop] 


10.declare&i& 


C/C++: 


#pragma acc declare 子 语 列表 换行 


Fortran : 


!$acc declare 子 语 列 表 
declare 的 子 语 : 


copy (变量 列表 ) 

copyin (变量 列表 ) 

copyout (变量 列表 ) 

create (变量 列表 ) 

present (变量 列表 ) 
deviceptr (变量 列表 ) 
device resident (变量 列表 ) 
Link( 变 量 列 表 ) 


11.init 导 语 

C/C++: 

#pragma acc init [ 子 语 列表 ] 换行 
Fortran : 

!$acc init [ 子 语 列表 ] 
init 的 子 语 : 


device type( 设备 类 型 列表 ) 
device num( 整数 表达 式 ) 


12.shutdown 导 语 


C/C++: 


#pragma acc shutdown [ 子 语 列表 ] 换行 


Fortran: 


1Sacc shutdown [ 子 语 列表 ] 


shutdown 的 子 语 : 


device type( 设备 类 型 列表 ) 
device num( 整数 表达 式 ) 


13.set 导 语 


C/C++: 


#pragma acc set [ 子 语 列表 ] 换行 


Fortran : 


!$acc set [ 子 语 列表 ] 


set 的 子 语 : 


default async( 整数 表达 式 ) 
device num( 整数 表达 式 ) 
device type( 设备 类 型 列表 ) 


14.update 导 语 


C/C++: 


#pragma acc update 子 语 列表 ”换行 


Fortran: 


'Sacc update 子 语 列表 


update 的 子 语 : 


async[ (整数 表达 式 )] 

wait[ (整数 表达 式 列表 ) ] 
device type (设备 类 型 列表 ) 
if (条 件 ) 

if present 

self (变量 列表 ) 
host (变量 列表 ) 
device (变量 列表 ) 


15.routine 导 语 


C/C++: 


#pragma acc routine 子 语 列表 换行 
#pragma acc routine (名 字 ) 子 语 列表 换行 


Fortran : 


'Sacc routine 子 语 列表 
!$acc routine (名 字 ) 子 语 列表 


set 的 子 语 : 


gang 

worker 

vector 

seq 

bind (名 字 ) 

bind (4$) 

device type (设备 类 型 列表 ) 
nohost 


16.wait&i& 


C/C++: 


#pragma acc wait [ (整数 表达 式 列表 ) ] 子 语 列表 换行 


Fortran : 


!$acc wait [ (整数 表达 式 列表 ) ] 子 语 列表 


wait 的 子 语 : 


async [( 整数 表达 式 )] 


第 3 章 ”OpenACC 计 算 构 件 


程序 的 加 速效 果 来 自 于 对 计算 部 分 的 并 行 化 。 本 章 重 点 介绍 计算 并 行 化 所 用 的 3 个 构件 : kernels、loop 和 parallel， 以 及 几 个 重要 的 子 语 。 编 译 器 将 串 行 循环 映射 成 并 行 线程 的 方式 多 种 多 样 ， 需 要 仔细 观 
察 几 种 常用 循环 的 并 行 化 方式 ， 掌 握 映 射 规律 。 为 了 演示 计算 构件 的 语法 和 加 速效 果 ，3.7 节 移植 常用 的 Jacobi 和 迭代。 


特别 提醒 : 用 OpenACC 并 行 化 程序 的 过 程 中 ， 可 能 不 会 立即 有 加 速效 果 ， 甚 至 计算 并 行 化 反而 使 整体 运行 时 间 延 长 。 这 是 正常 现象 ， 增 加 的 时 间 是 主机 与 设备 之 间 的 数据 传输 ， 不 必 担 忱 ， 第 4 章 会 详 
细 讲 述 如 何 缩短 数据 传输 时 间 。 


从 本 章 开 始 ， 假 定 读者 拥有 Linux 环 境 下 日 常 操作 、 编 译 运行 代码 的 基础 ， 已 经 成 功 部 署 OpenACC 开 发 环境 。Linux 入 门 教材 推荐 《 鸟 哥 的 Linux 私 房 菜 》， 也 可 以 到 其 官网 http://vbird.dic.ksu.edu.tw/ 学 
习 。OpenACC 开 发 环境 部 署 方法 可 以 参考 本 书 第 9 章 。 本 书 中 所 有 示例 代码 均 经 过 测试 验证 ， 测 试 环境 有 3 种 : 


1) 笔记 本 电脑 : 英特尔 CPU， 英 伟 达 GeFotce GT 420m 显 卡 ，Windows 7 操作 系统 ，PGI Workstation 15.10. 


2) 笔记 本 电脑 : 英特尔 CPU， 英 伟 达 GeForce GT 420m 显 卡 ，Ubuntu 14.04 操 作 系 统 ，PGI Workstation 16.3. 


3) 服务 器 : 两 颗 英 特 尔 至 强 CPU， 两 块 英 伟 达 Tesla KK20m 计 算 卡 ，Red Hat Enterprise Linux 6.2 操 作 系 统 ，PGI Workstation 16.3. 


英 伟 达 GeForce GT 420m 拥 有 96 个 CUDA 核 心 。 默 认 使 用 第 1 种 环境 编辑 、 调 试 代码 ， 使 用 第 2 种 环境 获取 程序 性 能 、 绘 制 性 能 图 形 ， 第 3 种 环境 特别 用 于 计算 区 域内 的 过 程 调用 和 6.6 节 单机 多 卡 的 情形 。 


对 示例 代码 的 讲述 以 C 语 言 主 为 ， 如 无 特别 需要 ， 只 列 出 Fortran 版 代码 ， 不 再 讲述 重复 的 语法 、 技 巧 。 为 便于 讲述 ， 每 行 代 码 都 添加 了 行 号 ， 这 些 行 号 不 是 代码 的 组 成 部 分 。 


3.1 ”条件 编译 


OpenACC 规 范 要 求 支持 它 的 编译 器 预定 义 一 个 宏 _ OPENACC， 宏 的 值 为 yyyymm， 其 中 yyyy 是 编译 器 所 支持 OpenACC 版 本 的 发 布 年 份 ，mm 是 月 份 。 当 且 仅 当 OpenACC 导 语 功 能 打开 时 ,编译 器 必 
须 定义 这 个 宏 。OpenACC 1.0、2.0、2.5 版 本 对 应 的 宏 值 分 别 为 201111、201306、201509。 可 以 在 程序 中 使 用 下 列 语句 将 宏 OPENACC 的 值 输 出 到 屏幕 上 : 


tf(" OPENACC=%d\n", _ OPI 


print*, " OPENACC-", _OPENACC 


结合 程序 语言 的 预 处 理 语句 ， 该 安 可 以 增强 代码 的 适应 性 ， 请 看 例 3.1。 


【 例 3.1】complc.c: 用 宏 变 量 OPENACC 条 件 编译 。 


#include<stdio.h> 
#ifdef OPENACC 


BWNHEPOWCDYAOKRWNE 


例 3.1 第 9 行 中 的 函数 acc_get_num_devices (.) FARERNE, ERIS TS GREAT 


#include<openacc.h> 
#endif 
int main () 


{ 


#ifdef | OPENACC 


#else 


printf ("OpenACC is not supported.\n"); 


dendif 


return 0; 


} 


ENACC); /* C 语 言 */ 
! Fortran 语 言 


printf ("Number of device: %d\n", \ 
acc get num devices (acc device not host) ); 


NAAN m 


AFG I laf 


的 原型 包含 在 头 文件 openacc.h 中 ， 不 支持 OpenACC 的 编译 器 没有 该 头 文件 ， 因 此 在 第 2 行 


使 用 #ifdef 条 件 包含 这 个 文件 ， 否 则 不 支持 OpenACC 的 编译 器 遇 到 #include<openacc.h> 语 句 时 将 报错 。 若 编译 器 支持 OpenACC 则 编译 第 8~9 行 ， 若 编译 器 不 支持 OpenACC 则 编译 第 11 行 。 


使 用 不 支持 OpenACC 的 gcc 编 译 器 编译 : 


$ gcc complc.c 


$ ./complc.exe 
OpenACC is not supported. 


-o complc.exe 


使 用 支持 OpenACC 的 PGI 编 译 器 编译 ， 并 打开 支持 选项 ， 在 拥有 一 块 英 伟 达 显卡 的 笔记 本 上 运行 ， 正 确 给 出 运行 环境 中 的 设备 数量 : 


$ pgcc -acc complc.c -0o complc.exe 
$ ./complc.exe 
Number of device: 1 


PGI 编 译 器 的 C 语 言 编译 程序 是 pgcc， 选 项 -acc 的 作用 是 打开 编译 器 对 OpenACC 的 支持 ， 从 而 有 了 编译 器 定义 的 宏 OPENACC， 没 有 选项 -acc 的 话 ， 第 3、8~9 行 会 被 忽略 。 


Fortran 代 码 有 个 预 编 译 小 技巧 : Fortran 语 言 本 身 不 支持 #fdef 等 预 处 理 指令 ， 因 此 要 在 正式 编译 前 预 处 理 一 下 ， 见 例 3.2。 将 Fortran 源 码 文件 的 扩展 名 由 通常 的 小 写 .f90 改 为 大 写 的 .F90，PGI 编 译 器 
就 会 自动 添加 预 处 理 过 程 ， 


【 例 


3.2】comp1f.F90: 用 宏 变量 OPENACC 条 件 编译 。 


program main 
#ifdef OPENACC 


NOrFOCOOATIDADOARWNE 


使 用 不 支持 OpenACC 的 gfortran 编 译 程序 编译 ， 正 确 输 出 不 支持 的 信息 : 


$ gfortran.exe -o compli 


#endif 
implicit none 

#ifdef  OPENACC 
print*, "Number of device: ", & 
acc get num devices (acc device not host) 
#else 


fendif 
endprogram 


use openacc 


print*, "OpenACC is not supported." 


$ ./complf.exe 
OpenACC is not supported. 


F.exe complf 


.F90 


PGI 编 译 器 的 Fortran 语 言 编译 程序 是 pgfortran， 支 持 Fortran 77/90/95/2003 多 个 版 本 。 使 用 支持 OpenACC 的 PGI 编 译 器 编译 ， 并 打开 支持 选项 -acc， 运 行 结果 正确 显示 拥有 1 个 设备 : 


$ pgi 


fortran -acc -o compli 


$ ./complf.exe 
Number of device: 


F.exe complf 


1 


.F90 


3.2 导语 恪 式 


OpenACC 的 绝 大 部 分 功能 都 是 以 导语 的 形式 实现 ， 导 语 有 一 个 基本 格式 ， 这 个 格式 简单 易学 。 本 书 中 关于 OpenACC 语 法 的 描述 ， 都 会 引用 官方 标准 《The OpenACC Application Programming 
Interface Version 2.5) , 不 易 懂 的 地 方 会 追加 解释 。 


在 C/C++ 中 ， 使 用 #pragma 预 处 理 机 制 指定 OpenACC 导 语 ， 语 法 是 : 
#pragma acc 导语 名 字 [ 子 语 列表 ] 换行 


每 个 导语 都 以 #pragma acc 开 始 。 导 语 的 其 他 部 分 都 遵守 C/C++ 中 pragma 的 使 用 规范 。 空 格 和 跳 格 统称 为 空白 字符 。# 的 前 后 都 可 以 使 用 空白 字符 ;导语 中 使 用 空白 字符 来 分 隔 各 字段 。#pragma 后 
面 的 预 处 理 标记 使 用 宏 蔡 换 。 导 语 区 分 大 小 写 。 一 个 OpenACC 导 语 作用 于 紧 接着 的 语句 、 结 构 块 和 循环 。 子 语 列 表 是 一 串 用 逗号 分 隔 的 子 语 。 这 里 的 “换行 ” 意 为 每 个 导语 要 独占 一 行 ， 不 要 在 一 行 上 写 


多 个 导语 。 


【 例 3.3】 导 语 格式 C 语 言 


#pragma acc kernels loops 
#pragma acc kernels loops 
# pragma acc kernels loops 
# pragma acc kernels loops 
#pragma acc kernels loop private(i), independent 
#pragma acc kernels loop private(i) independent 
#pragma acc kernels loop private (i), 
independent 
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例 3.3 给 出 了 几 个 格式 正确 的 导语 例子 ， 里 面 的 导语 、 子 语 的 有 具体 含义 先 不 必 理 会 ， 后 文 会 详 述 。 符 号 一代 表 空白 字符 (强调 说 明 可 以 使 用 空白 字符 ) 。 在 这 几 行 导语 中 ，private (i) 和 independent 
这 两 个 子 语 既 可 以 使 用 空白 字符 分 隔 ， 又 可 以 使 用 逗号 分 隔 。 最 后 两 行 组 成 一 个 导语 ， 续 行 符 从” 将 长 导语 分 写 在 多 行 ， 便 于 阅读 。 去 掉 所 有 的 续 行 符 和 换行 符 ， 其 他 不 做 任何 改变 ， 多 行 导语 就 成 为 仅 占 
一 行 的 长 导语 。 

Fortran 自 由 格式 源 文 件 中 ， 用 下 列 格式 指定 OpenACC 导 语 : 


!$acc 导语 名 字 [ 子 语 列表 ] 


第 一 个 注释 字符 (! ) 可 以 放 在 任意 列 ， 但 它 前 面 只 能 是 空白 字符 (空格 和 跳 格 的 统称 ) 。 前 导 符 ! $acc 必 须 以 一 个 整体 出 现 ， 中 间 不 能 有 空白 字符 。Fortran 语 言 的 每 行 长度 、 空 白字 符 、 续 行 符 规则 
同样 适用 于 导语 行 。 导 语 起 始 行 的 前 导 符 后 面 必须 接 有 空白 字符 。 待 续 行 (1 中 导语 部 分 的 最 后 一 个 非 空白 字符 必须 是 连 字 符 (8) ， 连 字符 后 面 仍然 可 以 写 注释 ; 接续 行 中 导语 必须 以 前 导 符 开始 (前 面 允 
许 有 空白 字符 ) ， 前 导 符 后 面 的 第 一 个 非 空白 字符 可 以 是 续 行 符 。 导 语 行 上 也 可 以 放 注 释 ， 注 释 以 感叹 号 开始 ， 直 至 行 尾 。 如 果 前 导 符 后 面 的 第 一 个 非 空白 字符 是 一 个 感叹 号 ， 那 么 该 行 被 忽略 。 子 语 列表 


是 一 串 用 逗号 分 隅 的 子 语 。 


li 


【 例 3.4】 导 语 格式 (Fortran) 。 


!Sacckernels 
!Sacckernels 
!$acc data copy(ex(1:150,1:150,1:300), & ! Line3-1 
!$acc hy(1:150,1:150,1:300),hnz(1:150,1:150,1:300)), & ! Line3-2 
!$acc copyin(a,b,c,d) ! Line3-3 


O1 4 C0 ho ES 


例 3.4 中 给 出 几 个 Fortran 版 本 的 导语 示范 。 空 白字 符 的 使 用 规则 与 C 版 本 相同 ， 不 同 的 是 续 行 规则 。 第 3~ 5 行 是 分 写成 3 行 的 一 个 导语 ， 每 行 都 需要 以 前 导 符 ! $acc 开 始 ， 而 C 版 则 不 需要 以 #pragma 开 
始 。 


在 固定 格式 Fortran 源 代码 文件 中 ，OpenACC 导 语 可 以 采取 下 列 形式 中 的 一 个 : 


!$acc 导语 名 字 [| 子 语 列表 ] 
cSacc 导语 名 字 [| 子 语 列表 ] 
*$acc 导语 名 字 | 子 语 列表 ] 


前 导 符 (! $acc、c$acc 或 *$acc) 必须 写 在 1~5 列 。 固 定格 式 的 每 行 长 度 、 空 白字 符 、 续 行 、 列 的 规则 同样 适用 于 导语 行 。 导 语 起 始 行 第 6 列 必 须 是 空格 或 0， 接 续 行 导语 在 第 6 列 不 能 是 空格 或 零 。 导 
语 行 也 可 以 添加 注释 ， 注 释 可 以 从 第 7 列 (包含 ) 之 后 的 任意 列 以 感叹 号 开始 ， 至 行 尾 结束 。 


在 Fortran 中 ， 导 语 不 区 分 大 小 写 。 分 写 在 多 行 的 单个 程序 语句 中 间 不 能 混入 导语 ， 同 样 ， 分 写 在 多 行 的 单个 导语 中 间 也 不 能 混入 程序 语句 。 本 文档 中 所 有 Fortran 版 导语 例子 都 采用 自由 格式 ， 建 议 读 
者 也 尽量 避免 新 开发 Fortran 77 代 码 。 


每 个 导语 中 只 能 有 一 个 导语 名 字 ， 一 个 例外 是 组 合 导语 ， 它 被 视 为 单个 导语 名 字 。 如 无 特别 规定 ， 多 个 子 语 出 现 的 顺序 无 天 紧要 ， 子 语 可 以 重复 出 现 多 次 。 有 些 子 语 的 参数 会 包含 一 个 列表 。 列 表 是 用 


逗号 分 隔 的 一 串 子 语 或 参数 。 


[1 如 果 单 个 程序 语句 被 分 写 在 多 行 之 上 ， 最 后 一 行 之 外 的 每 一 行 都 称 为 待 续 行 ， 第 一 行 之 外 的 每 一 行 都 称 为 接续 行 。 


3.3 ”计算 构件 kernels 


OpenACC 有 两 个 计算 构件 (Compute Construct) : parallel 和 Kkernels， 用 来 将 循环 并 行 化 。 两 个 构件 的 目标 是 一 样 的 ， 但 行为 有 较 大 的 区 别 。 初 学 者 应 优先 使 用 简单 的 kernels 构 件 ， 熟 练 以 后 可 以 
使 用 Parallel 构件 ， 众 多 的 子 语 还 能 够 精细 控制 并 行 化 方案 。 


想象 这 样 一 些 场景 : 刚 接 触 OpenACC， 细节 了 解 不 多 ， 想 尽快 上 手 体验 下 效果 ; 虽然 了 解 精细 的 调 优 技术 ， 但 是 要 在 有 限 的 时 间 内 改造 一 个 大 程序 ， 因 此 不 再 追求 最 优 性 能 ， 希 望 编译 器 能 够 自动 选 
择 一 些 参数 ， 尽 快 完成 任务 ;程序 将 要 在 多 种 设备 上 运行 ， 为 了 在 所 有 设备 上 都 能 跑 出 较 好 的 性 能 ， 参 数 不 能 写 死 ， 需 要 编译 器 根据 设备 环境 自动 选择 合适 的 参数 。 此 时 ，Kkernels 构 件 正 合适 。 


编译 器 将 把 kernels 构 件 区 域 编译 成 一 系列 在 加 速 器 设备 上 执行 的 CUDA kernel， 这 也 是 kernels 构 件 名 字 是 复数 形式 的 原因 。 
本 节 列 出 kernels 构 件 的 所 有 子 语 ， 但 只 讲解 一 部 分 ， 剩 余子 语 会 在 后 面 陆 续 进 解 。 阅 读 后 续 章节 时 ， 或 者 编写 实际 代码 时 ， 可 以 回 到 此 处 或 2.2 节 查阅 完整 的 语法 ， 而 不 必 翻 遍 全 书 查找 零 碎 的 语法 。 


c 和 C++ 中 ，kernels 导 语 的 语法 是 : 


p 


#pragma acc kernels [ 子 语 列表 ] 换行 


结构 块 


在 Fortran 中 的 语法 是 : 


!$acc kernels [ 子 语 列表 ] 


结构 块 


!Sacc end kernels 


这 里 的 子 语 是 下 列 中 的 一 个 : 


async[ (整数 表达 式 ) J 
wait[ (整数 表达 式 列 表 ) ] 
num gangs (整数 表达 式 ,) 


num workers (整数 表达 式 ) 
vector length (整数 表达 式 ) 
device type (设备 类 型 列表 ) 
if (条 件 ) 

copy (变量 列表 ) 
copyin (变量 列表 ) 
copyout 
create 
present 
device 
det 


faul 


编译 器 将 kernels 区 域内 的 代码 分 割 为 一 系列 的 加 速 器 内 核 (kernel) 。 通 常 ， 每 个 非 谋 套 循环 成 为 一 个 单独 的 内 核 。 当 程序 遇 到 一 个 kernels 构 件 时 ， 它 在 设备 上 按 顺 序 启动 这 一 系列 内 核 。 对 不 同 的 


内 核 ，gang 的 数量 、 每 个 gang 包 含 多 少 个 worker、vector 的 长 度 以 及 三 者 的 组 织 方 式 都 可 能 不 同 。 


如 果 没 有 使 用 async 子 语 ，kernels 区 域 结束 时 将 有 一 个 隐 式 障碍 ， 本 地 线程 不 再 向 前 执行 ， 直 至 所 有 的 内 核 都 执行 


用 一 些小 例子 说 明 kernels 构 件 的 行为 特征 。 这 些 例子 本 身 没有 应 用 价值 ， 只 为 演示 语法 和 程序 行为 


3.4 ”loop 构 件 


kernels 构 件 让 编译 器 自动 分 析 代 码 ， 挖 所 代码 里 的 并 行 性 ， 并 实施 并 行 化 。 但 是 ,编译 器 毕竟 只 是 
loop 导 语 。 该 诉 编译 器 哪些 循环 需要 并 行 化 ， 以 及 用 什么 方式 并 行 化 。 
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软件 ， 不 会 知道 程序 员 的 真实 意图 。 若 想 更 ; 付 确 高 效 地 指导 编译 器 的 并 行 化 工作 ， 程 序 员 可 以 使 用 


loop 导 语 可 用 在 kernels 构 件 内 ， 也 可 以 用 在 parallel 构 件 内 。 本 节 会 具体 讲解 loop 导 语 在 两 种 计算 构件 中 的 行为 ， 读 完 3.5 节 后 读者 会 峪 然 开朗 。 


loop 导 语 作用 于 紧 跟 该 导语 的 一 个 循环 。loop 导 语 可 以 描述 执行 这 个 循环 的 并 行 类 型 ， 
< 和 C++ 中 ，loop 导 语 的 语法 是 : 


z= 


#pragma acc loop [ 子 语 列表 ] 换行 


for 循 环 


Fortran 中 ，loop 导 语 的 语法 是 : 


!$acc loop [ 子 语 列表 ] 
do 循环 


这 里 的 子 语 是 下 列 中 的 一 个 : 


collapse (n) 

gang [ (gang 参 数列 表 ) ] 
worker [ ([num: ] 整数 表达 式 ) ] 
vector [([length:] $E 3& A) ] 
seq 

auto 

tile (尺寸 表达 式 列表 ) 
device type (设备 类 型 列表 ) 
independent 

private (列表 ) 

reduction (操作 符 : 列 表 ) 


这 里 的 gang 参 数 是 下 列 中 的 一 个 : 


[num:] 整数 表达 式 
static: 尺寸 表达 式 


并 且 gang 参 数列 表 至 多 只 能 有 一 个 num 或 static 参 数 ， 这 里 的 尺寸 表达 式 是 下 列 中 的 一 个 : 


一 些 子 语 只 能 用 在 kernels 区 域 的 上 下 文中 ， 详 述 见 下 文 。 


还 可 以 声明 循环 的 私有 变量 、 


数组 和 归 约 操作 。 


字面 上 没有 包含 在 一 个 parallel 构 件 或 kernels 构 件 之 内 的 loop 构 件 称 为 珀 立 loop 构 件 。 字 面 上 包含 一 个 loop 构 件 的 最 里 层 计算 构件 称 为 这 个 loop 构 件 的 父 层 计算 构件 。 


使 用 限制 |: 
: 仅 有 collapse、gang、wotket、vectof、sedq、auto 和 tile 这 几 个 子 语 可 以 跟 在 一 个 device_type 子 语 后 面 
参数 


整数 表达 式 必 须 在 kernels 区 域内 保持 不 变 。 


- Worker 和 vector 子 语 的 


| 不 带 sed 子 语 的 loop 构 件 的 关联 循环 必须 写成 这 样 : 进入 loop 构 件 的 时 候 就 能 计算 出 迭代 步 的 数量 。 


o 


本 节 把 所 有 子 语 的 含义 都 罗列 出 来 ， 但 只 挑选 重要 的 子 语 详细 讲解 。 提 请 注意 ， 子 语 的 含义 均 从 OpenACC 规 范 翻 译 而 来 ， 可 能 有 掏 口 的 地 方 ， 需 要 细 细 理解 。 


35 ”计算 构件 parallel 


OpenACC 中 的 计算 构件 有 两 个 ， 一 个 是 前 面 介绍 的 kernels 构 件 ， 一 个 就 是 这 里 要 介绍 的 parallel 构 件 。 两 个 计算 构件 的 作用 都 是 将 循环 并 行 化， 但 有 一 些 重要 区 别 。 本 节 将 结合 一 些 例子 详细 对 比 介 
4n 
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parallel 这 个 基本 构件 开启 加 速 器 设备 上 的 并 行 执行 。 


在 C 和 C++ 中 ，paralle| 导 语 的 语法 是 : 


#pragma acc parallel [ 子 语 列表 ] 换行 
结构 块 


在 Fortran 中 的 语法 是 : 


!$acc parallel [ 子 语 列表 ] 
结构 块 
!$acc end parallel 


这 里 的 子 语 是 下 列 中 的 一 个 : 


async[( 整数 表达 式 ) ] 
wait[ (整数 表达 式 列表 ) ] 
num gangs (整数 表达 式 ) 


num workers (整数 表达 式 ) 
vector length (整数 表达 式 ) 
device type (设备 类 型 列表 ) 
if (条 件 ) 

reduction (操作 符 : 变 量 列表 ) 
copy (变量 列表 ) 
copyin (变量 列表 
copyout (变量 列 
create (变量 列表 ) 
present (4 
deviceptr (变量 列表 ) 
Private (变量 列表 ) 
firstprivate (变量 列表 ) 
default (none|present) 
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遇 到 一 个 加 速 器 parallel 构 件 的 时 候 ， 程 序 就 创建 一 个 或 多 个 gang 来 执行 这 个 加 速 器 并 行 区 域 。gang 的 数量 、 每 个 gang 中 的 worker 数 量 和 每 个 worker 中 的 向 量 通 道 数量 ， 在 这 个 并 行 区 域 的 存续 期 内 
保持 为 常数 。 每 个 gang 都 开始 以 gang 匈 余 模 式 执行 结构 块 。 这 意味 着 ， 在 并 行 区 域 之 内 ， 带 loop 导 语 且 以 gang 层 次 工作 分 摊 的 循环 之 外 的 代码 ， 将 被 所 有 的 gang 匈 余地 执行 。 


在 每 个 gang 中 都 有 一 个 worker 开 始 执行 本 构件 的 结构 块 中 的 代码 。 
注意 
除非 并 行 区 域内 有 一 个 显 式 的 loop 寻 语 ， 否 则 所 有 的 gang 都 将 以 宛 余 的 方式 执行 区 域内 的 所 有 代码 。 


如 果 没有 使 用 async 子 句 ， 加 速 器 parallel 区 域 出 口 处 将 会 有 一 个 隐 式 障碍 ， 此 时 本 地 线程 不 下 向 前 执行 ， 直 到 所 有 的 gang 都 已 到 达 parallel 区 域 的 出 口 。 


假设 计算 构件 里 面 引用 一 个 变量 ,该 变量 既 没 有 预 置 数据 属性 也 没有 出 现在 计算 构件 的 数据 子 语 之 中 ， 还 没有 出 现在 data 构 件 、 可 见 的 declare 导 语 之 中 ， 如 果 构 件 上 没有 default (none) 子 语 ， 那 么 
编译 器 将 隐 式 地 确定 该 变量 的 数据 属性 。 构 件 上 没有 default (present) 子 语 的 时 候 ， 如 果 这 个 parallel 构 件 内 引用 的 数组 或 者 聚合 数据 类 型 变量 既 没 有 出 现在 本 构件 的 数据 子 语 中 ， 也 没有 出 现在 包围 本 构 
件 的 data 构 件 中， 那么 它们 将 被 视 为 出 现在 Parallel 构件 的 copy 子 语 中 。 如 果 构 件 上 有 一 个 default (present) 子 语 ， 那 么 对 那些 没有 预 置 数 据 类 型 的 所 有 数组 和 聚合 数据 类 型 的 变量 ,编译 器 会 将 它们 看 
做 好 像 出 在 一 个 present 子 语 之 中 。 如 果 一 个 标量 变量 在 paralle| 构 件 中 被 引用 ， 并 且 没 有 出 现在 该 parallel 构 件 的 数据 子 语 中 ， 也 没有 包含 在 任何 data 构 件 中 ， 那 么 它 等 同 于 出 现在 parallel 构 件 的 
firstprivate 子 语 中 。 


使 用 限制 : 
一 个 程序 不 能 通过 分 支 转 入 或 跳出 parallel 构 件 。 
一 个 程序 决 不 能 依赖 于 子 语 的 求 值 顺 序 或 求 值 的 副作用 。 
: 只 有 async、wait、num_gangs、num_wotrkers 和 和 vector_length 这 些 子 语 可 以 跟 在 一 个 device_type 子 语 后 面 。 
. 至 多 出 现 一 个 if 子 语 。Forttan 中 ， 条 件 的 运算 结果 必须 是 一 个 标量 逻辑 值 ; C 和 C++ 中 ， 条 件 的 运算 结果 必须 是 一 个 标量 整数 值 。 
|: 至 多 只 能 出 现 一 个 default 子 语 ， 而 且 必 须 带 有 一 个 值 ， 要 么 是 none 要 么 是 present。 


数据 子 语 copy、copyin、copyout、create、present、deviceptr、firstprivate 和 private 子 语 将 在 第 4 章 中 讲述 。 


3.6 组合 导 语 
如 果 parallel 构 件 或 Kernels 构 件 内 立即 柑 套 一 个 loop 构 件 ， 那 么 就 可 以 组 合 起 来 简写 为 parallel loop 构 件 或 Kernels loop 构 件 。 它 的 含义 等 同 于 在 Parallel 构件 或 kernels 构 件 内 显 式 地 包含 一 个 loop 构 
件 。 任 何 可 以 用 在 Parallel 或 Joop 构 件 上 的 子 语 都 可 以 用 在 parallel loop 构 件 上 。 任 何 可 以 用 在 kernels 或 loop 构件 上 的 子 语 都 可 以 用 在 kernels loop 构 件 上 。 


< 和 C++ 中 ，parallel loop 构 件 的 语法 是 : 


#pragma acc parallel loop [ 子 语 列表 ] 换行 
for 循环 


Fortran, parallel loop 构 件 的 语法 是 : 


!$acc parallel loop [ 子 语 列表 ] 
do 循环 
[!Sacc end parallel loop] 


紧 接着 导语 的 循环 就 是 本 导语 的 关联 结构 块 。parallel 或 loop 的 任意 子 语 ， 只 要 可 以 用 在 Parallel 区 域 ， 就 可 以 出 现在 这 里 。 


C#0C++, kernels loop 导 语 的 语法 是 : 


#pragma acc kernels loop [ 子 语 列 表 ] 换行 
for 循环 


Fortran}, kernels loop 导 语 的 语法 是 : 


!$acc kernels loop [ 子 语 列表 ] 
do 循环 
[!Sacc end kernels loop] 


紧 接着 导语 的 循环 就 是 关联 结构 块 。Kkernels 或 loop 的 任意 子 语 ， 只 要 可 以 用 在 kernels 区 域 ， 都 可 以 出 现在 这 里 。reduction 子 语 既 可 以 出 现在 kernels 构 件 上 也 可 以 出 现在 loop 构 件 上 ， 在 kernels 
loop 构 件 上 的 行为 就 好 像 出 现在 loop 导 语 上 一 样 。 


使 用 限制 : 
patallel、kernels、loop 构 件 的 限制 同样 适用 。 


这 些 语法 很 简单 ， 不 再 举例 。 


3.7 案例 研究 : Jacobi 


本 节 实 例 示范 计算 构件 的 用 法 。 先 给 出 捉 行 算法 ， 然 后 分 析 性 能 瓶 开 ， 用 OpenACC 并 行 化 ， 最 后 评定 并 行 化 效果 。 


图 3.13 ABQ, 


考虑 科学 与 工程 计算 中 常用 的 二 维 泊 松 (Poisson) 方程 ， 


— Alu(x, y 


u(x, 


Q —(0, W)X (0, H), ^u(x, y= ue, » taut, y) 


(x 3 y) 5 (x : y) SA 


; f (x, y) 和 g (x, y) 是 已 知 函 数 ， 分 别 定 义 在 区 域 O 的 内 部 和 边界 上 。 


E. 


其 中 


对 任意 给 定 的 正 整数 Mx 和 Ny， 将 网 格 剖 分 成 Mxx Ny 个 相同 的 方 格 ， 网 格 宽度 关 一 14 人， VN, piii Qu hs jh) i=l, 20, M, j—-1 2. ND, 下 文采 用 下 列 简化 记号 : 


u; ;— u(ihs, jAy), fi; fih, Jhy) OSISM,, 0j mN, 
£i 7 Eh, jh), i=0 或 i—M, aed 或 j—N, 


3 J ss PT MER 
7 u(ihy, jhy)* zi 
Ox hy 
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将 差分 近似 代入 泊 松 方程 ， 便 得 到 了 五 点 差分 离散 格式 ， 泊 松 方程 的 求解 也 相应 地 转化 为 求解 稀疏 线性 方程 组 : 


2 (hd hiyu; ;— hy(uia, jT uia) — A (Ui, ja uia) hih, fi; 
| Sim md m ] €jzxN, 


这 里 用 经 典 的 Jacobi 算 法 来 求解 此 方程 组 (其实 存在 很 多 更 快 更 稳定 的 求解 算法 ) 。 从 任意 一 个 初始 近似 解 


Li ij i= ]. 2 E M,, j= a PA 


出 发 ， 迭 代 计 算 : 
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k 
迭代 序号 k = 1，2，...， 直 至 近似 解 “ ij 满 足 误 差 要 求 。 


^ i=l; Zs OTa M,, j—1, pA 


€f (x, y) = - 4， 且 在 边界 3Q EgG.») + ， 那 么 泊 松 方程 的 解析 解 为 u_ (x，y) =x2+y<。 例 3.40 和 例 3.41 中 的 代码 就 按照 这 样 的 边界 条 件 迭 代 计 算 。 若 9 (x, y) =0, HFEF (x, y) = 
4n?sin (2nx) sin (2ny) ， 那 么 泊 松 方程 的 一 个 解析 解 是 u (x, y) = sin (2rx) sin (2ny) ， 读 者 可 以 在 需要 时 使 用 这 个 边界 条 件 来 修改 代码 ， 性 能 表现 可 能 会 有 些 不 同 。 


【 例 3.40】ja0c1.c: Jacobi 串 行 和 迭代 。 


1 #include<stdio.h> 

2 #include<stdlib.h> 

3 #include<math.h> 

4 #include <sys/time.h> 

5 #define gettime(a) gettimeofday (a, NULL) 

6 #define usec(t1,t2) (((t2).tv sec-(tl).tv sec)*1000000 \ 
7 *((t2).tv usec-(tl).tv usec)) 

8 typedef struct timeval timestruct; 

9 
10 #define Mx 8191 


11 +#define Ny 1023 

12 float uval(float x, float y)íreturn(x*xty*y);] 

13 int main() 

14 { 

15 Float Widthy = 2.0, Heightx = 1.0; 

16 Float *u0, *ul; 

17 Float hx, hy, hx2, hy2, fij, cl, c2; 

18 float uerr, errtol, tmp, *tprt; 

19 int ix, jy, maxlIter, iter; 

20 int Nypl = Ny+1; 

21 timestruct tl, t2; 

22 long long telapsed; 

23 

24 u0 = (float*)malloc (sizeof (float) * (Mx+1)* (Ny*1)); 
29 ul = (float*)malloc (sizeof (float) * (Mx+1) * (Ny*1)) ; 
26 maxlIter = 100; 

27 errtol = 0.00f; 

28 hx = Heightx/Mx; 

29 hy = Widthy/Ny; 

30 

31 // Initialize the left/right boundary of u0/ul 

32 for (ix = 0; ix <= Mx; ix++) 

33 { 

34 uO[ix*Nypl1*0] = ul[ix*Nyp1+0] -uval(ix*hx, 0.0f); 
35 u0 [ix*Nypl+Ny] = ul[ix*Nyp1+Ny] = uval (ix*hx, Ny*hy) ; 
36 } 

37 // Initialize the upper/lower boundary of u0/ul 
38 for (jy = 0; jy <= Ny; jy++) 

39 { 

40 uO[jy] = ul[jy] = uval(0.0f, jy*hy); 

41 uO[Mx*Nypl*jy] = ul [Mx*Nypl+jy] = uval(Mx*hx, jy*hy); 
42 } 

43 // Initialize the interior points of u0 

44 for(ix = 1; ix < Mx; ix ++) 

45 for(jy = 1; jy < Ny; jy ++) 

46 { 

47 uO[ix*Nypl4jy] = 0.0f; 

48 } 

49 

50 fij = -4.0f; 

51 cl = hx*hx * hy*hy; 

52 c2 = 1.0£/ (2.0* (hx*hxthy*hy) ) ; 

53 hx2 = hx*hx; 

54 hy2 = hy*hy; 

55 gettime (&t1); 

56 // main iterations 

57 for (iter = 1; iter <= maxIter; iter++) 

58 { 

59 uerr = 0.0f; 

60 For (ix -1; ix < Mx; ix++) 

61 for (jy -1; jy < Ny; jy**) 

62 { 

63 ul [ix*Nyp1+jy]=(cl*fijthy2* (u0 [ (ix-1) *Nypl4jy] + u0O[(ix*1)*Nyp14jy]) 
64 + hx2* (u0 [ix*Nypl+jy-1] +u0[ix*Nyp1+jy+1]))*c2; 
65 tmp = fabs (u0 [ix*Nyp1+jy]-ul [ix*Nypl+jy]); 

66 uerr = tmp > uerr ? tmp : uerr; 

67 } 

68 printf ("iter = $d uerr = %e\n", iter, uerr); 

69 if(uerr < errtol) break; 

70 tprt = u0; u0 = ul; ul = tprt; 

71 } 

72 gettime (&t2) ; 

73 telapsed = usec(tl,t2); 

74 printf("ElapsedTime = $131d microseconds Wn", telapsed ); 
75 free (u0); 

76 free (u1); 

77 return 0; 

78 } 


[513.41] ja0f1.f90: Jacobi # 


行 迭代 。 


1 program main 
2 implicit none 
3 real, parameter:: Widthy = 2.0, Heightx = 1.0 
4 real hx, hy 
5 integer, parameter:: Mx = 8191, Ny = 1023 
6 real, allocatable:: u0(:,:), ul(:,:) 
7 integer maxIter, iter, ix, jy 
8 real uerr, errtol 
9 real fij, cl, c2, hx2, hy2 
10 real tstart, tend 
11 
12 real, external:: uval 
13 
14 maxIter = 100 
15 errtol = 0.0 
16 hy = Widthy/Ny 
17 hx = Heightx/Mx 
18 
19 allocate (u0(0:Mx,0:Ny)) 
20 allocate (ul (0:Mx, 0:Ny) ) 
21 
22 ! Initialize the upper/lower boundary of u0/ul 
23 do jy = 0, Ny 
24 u0(0,jy) = uval(0.0, jy*hy) 
295 u0 (Mx, jy) = uval(Mx*hx, jy*hy) 
26 enddo 
27 u1(0,0:Ny) = u0(0,0:Ny) 
28 ul (Mx,0:Ny) = u0(Mx,0:Ny) 
29 
30 ! Initialize the left/right boundary of u0/ul 
31 do ix = 0, Mx 
32 u0 (ix, 0) = uval (ix*hx, 0.0) 
33 u0 (ix,Ny) = uval (ix*hx, Ny*hy) 
34 enddo 
35 ul(0:Mx,0) = u0(0:Mx, 0) 
36 ul(0:Mx,Ny) = u0(0:Mx,Ny) 
37 
38 ! Initialize the interior points of u0 
39 u0(1:Mx-1,1:Ny-1) = 0.0 
40 
41 fij = -4.0 
42 cl = hx**2 * hy**2 
43 c2 = 1.0/ (2.0* (nx**2+hy**2) ) 
44 hx2 = hx**2 
45 hy2 = hy**2 
46 call cpu time (tstart) 
47 ! main iterations 
48 do iter = 1, maxIter, 2 
49 do jy = 1, Ny -1 
50 do ix = 1, Mx -1 
51 ul(ix, jy) = (fij*cl + hy2* (u0 (ix-1,jy)+u0 (ix+1,jy))+ & 
52 hx2* (u0 (ix, jy-1) +u0 (ix,jy*1))) *c2 
53 enddo 
54 enddo 
55 uerr = 0.0 
56 do jy = 1, Ny -1 
57 do ix = 1, Mx -1 
58 u0 (ix, jy) = (fij*cl + hy2* (ul (ix-1, jy) tul (ix+1,jy))+ & 
59 hx2* (ul (ix,jy-1)-*ul (ix,jy*1)))*c2 
60 uerr = max(uerr, abs(u0(ix,jy)-ul(ix,jy))) 
61 enddo 
62 enddo 
63 print*, "iter =", iter41, "uerr =", uerr 
64 if(uerr « errtol) exit 


enddo 


66 call cpu time (tend) 

67 print*,"ElapsedTime -", tend - tstart, "second" 
68  deallocate (u0,ul) 

69 endprogram 


70 ! 

71 real function uval (x, y) 
72 real, intent(in):: x, y 
73 uval = x*x + y*y 

74 end function 


如 无 特别 说 明 ，Jacobi 迭 代 这 个 案例 的 所 有 代码 均 在 Ubuntu 环境 下 编译 运行 。 


例 3.40 第 4~ 8 行 定 义 了 一 个 用 来 计时 的 结构 体 timestruct， 只 能 在 Linux 环 境 下 运行 。 如 果 想 兼顾 在 Windows 环 境 下 编译 运行 ， 需 要 著 换 为 如 下 代码 : 


#if defined( WIN32) | defined( WIN64) 

#include «sys/timeb.h» 

#define gettime(a)  ftime (a) 

#define usec(tl,t2) ((((t2) .time-(t1).time) *1000+ \ 
((t2) .millitm- (t1).millitm))*100) 

typedef struct timeb timestruct; 

#else 


finclude <sys/time.h> 


#define gettime(a) gettimeofday (a, NULL) 

#define usec(tl1,t2) (((t2).tv sec-(tl).tv sec)*1000000-* \ 
((t2).tv usec-(tl).tv usec)) 

typedef struct timeval timestruct; 

fendif 


例 3.40 第 10~11 行 用 安定 义 网 格 尺 寸 Mx 和 Ny， 第 16 行 定义 两 个 一 维 数组 u0 和 u1， 用 来 保存 二 维 格 点 上 的 旧 值 和 新 值 。 为 兼顾 数组 的 内 存 对 齐 ，Mx 和 Ny 均 选择 较 特殊 的 值 8192-1 和 1024-1。 代 码 中 的 


变量 Widthy 和 Heightx 分 别 对 应 Q = (0, W) x (0, H) 中 的 W 和 H。 第 32~42 行 给 数组 u0 和 u1 的 左右 上 下 四 个 边界 赋值 ， 这 些 边界 值 在 整个 计算 过 程 中 保持 不 变 。 数 组 u0 的 内 部 元 素 对 应 Oh 的 内 部 格 
点 ， 第 44~48 行 为 数组 u0 的 内 部 元 素 赋 初 始 值 ， 这 些 初 始 值 可 以 随意 指定 ， 代 码 里 指定 为 0。 代 码 中 的 变量 何 、c1、c2、hx2、hy2 分 别 对 应 公式 中 的 万 I. VOU Eh). I. 大。 第 57~71 行 是 主体 和 迭 
代 ， 每 一 个 iter 和 迭 代步 中 ， 用 u0 更 新 u1 同 时 计算 两 者 间 的 最 大 误差 值 uerr， 然 后 将 u1 中 的 新 值 赋 给 u0， 准 备 进行 下 一 步 迭 代 。 


例 3.40 第 26 行 的 maxlter 指 定 最 大 迭代 次 数 。 第 27 行 的 errtol 指 定 误 差 阐 值 ， 当 两 步 迭代 之 间 的 最 大 误差 小 于 该 阐 值 时 ， 退 出 循环 。 为 方便 后 文 比较 ， 将 errtol 指 定 为 0， 从 而 每 个 版 本 的 代码 均 迭 代 相同 
的 次 数 ， 实 际 使 用 的 时 候 可 以 为 errtol 指 定 大 于 0 的 辣 值 。 在 每 次 迭代 后 ， 第 68 行 输出 新 值 和 旧 值 的 最 大 误差 。 第 74 行 输出 循环 主体 消耗 的 时 间 。 


为 节约 篇 幅 ， 代 码 中 略 去 了 错误 的 检测 和 处 理 。 
Fortran 版 代码 例 3.41 与 C 版 代码 例 3.40 基 本 相同 ， 区 别 在 于 : 数组 u0 和 u1 动 态 分 配 ; 每 两 步 和 迭代 输 出 1 次 误差 。 为 保持 与 C 版 本 一 致 ， 数 组 起 始 下 标 指定 为 0， 而 不 采用 默认 的 1。 


编译 运行 两 种 语言 版 本 均 能 得 到 相同 的 100 步 误差 值 uerr， 绘 制 成 对 数 坐标 图 。 由 图 3.14 可 见 ， 误 差 单 调 下 降 ， 但 下 降 速 度 逐 渐 平 稳 。 
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图 3.14 Jacobi 先 代 误 衰减 情况 


后 续 章节 将 逐个 讲解 OpenACC 的 导语 、 子 语 ， 同 时 逐步 移植 优化 Jacobi 迭 代 。 计 算 误差 的 那 几 行 代码 的 并 行 化 需要 较 高 级 的 reduction 子 语 ， 比 较 麻烦 ， 因 此 和 暂时 注释 掉 ， 稍 后 会 恢复 误差 代码 。 
Jacobi 迭 代 的 并 行 化 代码 有 多 个 版 本 ， 每 个 版 本 的 完整 代码 都 较 长 ， 为 节省 篇 幅 ， 只 列 出 有 变化 的 代码 ， 后 面 的 例子 都 照 此 办 理 。 例 3.42 和 例 3.43 是 不 计算 误差 的 版 本 ， 用 来 与 带 误 差 的 版 本 对 比 ， 评 估 误 
差 消耗 的 时 间 。 


【 例 3.42】ja0c2.c: Jacobi P {FIZA (不 计算 误差 ， 在 ja0c1.c 基 础 上 修改 ) 。 


57 for (iter = 1; iter <= maxIter; iter++) 
58 

59 //uerr = 0.0f£; 

60 for (ix -1; ix < Mx; ix++) 


61 or (jy -1; jy < Ny; jy**) 

62 { 

63 ul [ix*Nypl1+jy]=(c1*fij+hy2* (u0 [ (ix-1) *Nyplt+jy] +u0[(ix+1) * Nypl+jy]) 
64 + hx2* (u0 [ix*Nypl+jy-1] tu0 [ix*Nypl+jy+1]))*c2; 

65 //tmp = fabs (u0 [ix*Nyp1t+jy]-ul [ix*Nypl+jy]); 

66 //uerr = tmp > uerr ? tmp : uerr; 

67 } 

68 //printf("iter = $d uerr = %e\n", iter, uerr); 

69 //if(uerr < errtol) break; 

70 tprt = u0; u0 = ul; ul = tprt; 


[45)3.43] ja0£2.f90: Jacobid&4T3R4X 〈 不 计算 误差 ， 在 ja0fl.f90 基 础 上 修改 ) 。 


48 do iter = 1, maxIter, 2 

49 do jy = 1, Ny -1 

50 do ix = 1, Mx -1 

5L ul (ix, jy) = (fij*c1 + hy2* (u0 (ix-1,jJy)+u0 (ix+1,jy))+ & 
52 hx2* (u0 (ix, Jy-1) +u0 (ix,jy*1)))*c2 

53 enddo 

54 enddo 

55 luerr = 0.0 

56 do jy = 1, Ny 

57 do ix = 1, Mx -1 

58 u0 (ix, jy) = (fij*cl + hy2*(ul(ix-1,jy)*ul(ix*1,jy))* & 
59 hx2* (ul (1x,]y-1)4ul(ix,]ytl)))*c2 
60 !uerr = max(uerr, abs (u0(ix,jy)-ul(ix,jy))) 

61 enddo 

62 enddo 

63 !print*, "iter =", iter41, "uerr =", uerr 

64 lif (uerr < errtol) exit 

65 enddo 


3.8 ”原子 操作 : atomic 导 语 


原子 操作 不 太 常用 ， 这 里 列 出 OpenACC 2.5 规 范 中 的 全 部 语法 ， 并 给 出 一 个 简单 的 例子 。 语 法 太 多 ， 不 展开 讲解 ， 读 者 可 以 在 需要 的 时 候 回 到 此 处 仔细 研读 。 
一 个 atomic 构 件 保证 指定 的 存储 位 置 被 不 受 干 扰 地 访问 或 更 新 ， 防 止 多 个 gang、worker 或 vector 线 程 同 时 访问 同一 位 置 ， 避 免得 到 不 确定 的 值 。 


C 和 和 C++ 中 ，atomic 构 件 的 语法 是 : 


#pragma acc atomic [ atomic 子 语 ] 换行 


表达 式 语句 


或 : 


#pragma acc atomic capture 换行 


结构 块 


这 里 的 atomic 子 语 是 read、write、update 或 capture 中 的 一 个 。 表 达 式 语句 的 形式 是 下 列 中 的 一 个 : 


如 果 atomic 子 语 为 read: 


v = X; 


如 果 atomic 子 语 为 write: 


x = expr; 


如 果 atomic 子 语 为 update 或 者 为 空 : 


X++; 

x--; 

TX; 

--x; 

x binop- expr; 

X — x binop expr; 
X — expr binop x; 


如 果 atomic 子 语 为 capture: 


aay: 
x binop- expr; 

X — x binop expr; 
x — expr binop x; 


<<<<<<< 
i 


结构 化 块 的 形式 为 下 列 之 一 : 


(v = x; x binop= expr;} 
{x binop= expr; v = x;) 


(v = x; x = x binop expr;] 
(v = x; x = expr binop x;] 
(x = x binop expr; v = x;] 
{x = expr binop x; v = x;} 
(v = x; X = expr; } 

(v = x; x++;} 

{v = x; ++x;} 

{++x; v = x;} 

{xt+; v = x;} 

iv = x; xr] 

(v = x; xi] 

i--X; v = WII 

(x--; v = x7} 

在 前 面 的 表达 式 中 : 


` x 和 v (如 果 用 到 了 ) 都 是 标量 类 型 的 左 值 表达 式 。 
` 在 一 个 原子 区 域 执行 期 闻 ， 在 语法 上 多 次 出 现 的 x 必须 指向 相同 的 存储 位 置 。 
“Vv 和 expr (如 果 用 到 了 ) 都 不 能 访问 x 指向 的 存储 位 置 。 


` x 和 expr (如 果 用 到 了 ) 都 不 能 访问 v 指 向 的 存储 位 置 。 


. expt 是 一 个 标量 类 型 的 表达 式 。 

* binopE t, *, n /. &, ^. |. ««X» T í9—4-. 

.binop、binop=、 二 + 和 -- 不 能 是 重 载运 算 符 。 

- 表达 式 xbinop expt 必 须 在 数学 上 等 价 于 xbinop (expr) 。 如 果 expt 中 操作 符 的 优先 级 高 于 binop， 或 者 在 expt 或 expt 子 表达 式 的 两 边 使 用 圆 括号 ， 就 能 够 满足 这 个 要 求 。 

- 表达 式 expt binop x 必须 在 数学 上 等 价 于 (expr) binop x。 如 果 expt 中 操作 符 的 优先 级 等 于 或 高 于 binop， 或 者 在 expt 或 expt 子 表达 式 的 两 边 使 用 圆 括号 ， 就 能 够 满足 这 个 要 求 。 


.在 那些 x 多 次 出 现 的 形式 中 ，x 的 求 值 次 数 没有 指定 。 


Fortran 中 ，atomic 构 件 的 语法 是 : 


!Sacc atomic read 
capture Rik X, 
[!Sacc end atomic] 


或 


!Sacc atomic write 
writedkiA X, 
[!Sacc end atomic] 


或 


!$acc atomic [update] 
update RIK X, 
[!Sacc end atomic] 


或 


!Sacc atomic capture 
update RIK X, 
capture Rik X, 

!$acc end atomic 


at 


!'Sacc atomic capture 
capture Rik X, 
update RIK X, 

!$acc end atomic 


或 


!Sacc atomic capture 
capture Rik X, 
write 表 达 式 

!$acc end atomic 


这 里 的 write 表达 式 具有 如 下 形式 (如 果子 语 是 write 或 capture) : 


X — expr 


这 里 的 capture 表 达 式 具有 如 下 的 形式 (如 果子 语 是 write 或 capture) : 


这 里 的 update 表 达 式 具有 如 下 的 形式 (如 果子 语 是 update、capture， 或 没有 子 语 ) : 


x 操作 符 expr 
expr 操作 符 x 
内 置 过 程 名 字 (x， 表 达 式 列表 ) 
内 置 过 程 名 字 (表达 式 列表 ， x) 


x x MM 
How th ll 


在 前 面 的 表达 式 中 : 


` x 和 v (如 果 用 到 了 ) 都 是 内 置 类 型 的 标量 变量 。 


| 在 一 个 原子 区 域 执行 期 间 ， 在 语法 上 多 次 出 现 的 x 必须 指向 相同 的 存储 位 置 。 

“Vv 和 expt (w RAAT) 都 不 能 访问 x 指向 的 存储 位 置 。 

. x 和 expr (如 果 用 到 了 ) 都 不 能 访问 v 指 向 的 存储 位 置 。 

` expt 是 一 个 标量 类 型 的 表达 式 。 

表达 式 列表 是 一 个 用 过 号 分 隔 的 非 空 标量 表达 式 列表 。 如 果 内 置 过 程 名 字 是 iand、ior 或 ieor， 那 么 必须 有 且 只 能 有 一 个 表达 式 出 现在 表达 式 列表 里 。 

- 内 置 过 程 名 字 是 max、min、iand、iot 或 ieor 中 的 一 个 。 操 作 符 是 +、*、-、/、.and.、.of.、.eqv. 或 .neqv. 中 的 一 个 。 

“ 表达 式 x binop expt 必 须 在 数学 上 等 价 于 xbinopb (expr) 。 如 果 expt 中 操作 符 的 优先 级 高 于 binop， 或 者 在 expt 或 expt 子 表达 式 的 两 边 使 用 圆 括号 ， 就 能 够 满足 这 个 要 求 。 


. 表达 式 expt binop x 必 须 在 数学 上 等 价 于 (expr) binop x。 如 果 expt 中 操作 符 的 优先 级 等 于 或 高 于 binop， 或 者 在 expt 或 expt 子 表达 式 的 两 边 使 用 圆 括号 ， 就 能 够 满足 这 个 要 求 。 


* 操作 符 必 须 是 内 存 操作 符 ， 不 能 是 用 户 自 定义 的 运算 符 。 所 有 的 赋值 必须 是 内 置 赋值 。 


zov 


.在 那些 x 多 次 出 现 的 形式 中 ，x 的 求 值 次 数 没有 指定 。 
一 个 带 有 read 子 语 的 atomic 构 件 对 x 指向 的 位 置 做 一 次 强制 原子 读 。 一 个 带 有 write 子 语 的 atomic 构 件 对 x 指向 的 位 置 做 一 次 强制 原子 写 。 


一 个 带 有 update 子 语 的 原子 构件 ， 使 用 指定 的 操作 符 或 固有 操作 符 强 制 原 子 更 新 x 指向 的 位 置 。 注 意 ， 没 有 子 语 出 现时 ，atomic 导 语 等 价 于 atomic update。 对 x 指 向 的 位 置 ， 仅 有 read 和 write 能 够 相 
互 原子 地 实施 。 对 于 需要 读 或 写 的 x 指向 的 位 置 ， 表 达 式 或 表达 式 列表 不 必 原 子 地 求 值 。 


一 个 带 有 capture 子 语 的 原子 构件 ， 使 用 指定 的 操作 符 或 固有 操作 符 强制 原子 更 新 x 指 向 的 位 置 ， 与 atomic update 相 比 ， 它 还 能 捕捉 x 指向 位 置 的 初始 值 或 最 终 值 。 写 入 v 指 向 位 置 的 值 究竟 是 x 指向 位 置 
的 初始 值 还 是 最 终 值 ， 依 赖 于 原子 构件 结构 块 或 语句 的 形式 。 对 x 指向 的 位 置 ， 仪 有 read 和 write 能 够 相互 原子 地 实施 。 无 论 是 表达 式 还 是 表达 式 列表 求 值 ， 以 及 v 指 向 位 置 的 写 操作 ， 都 不 必 原 子 地 读 或 写 x 
指定 的 位 置 。 


对 所 有 形式 的 原子 构件 ， 这 些 原 子 构件 的 两 个 或 两 个 以 上 的 任意 组 合 ， 都 会 迫使 豆 斥 地 访问 x 指 向 的 位 置 。 为 避免 数据 竞争 ， 所 有 对 x 指 向 位 置 的 访问 ， 如 果 有 可 能 并 行 发 生 ， 都 必须 用 一 个 原子 构件 保 
护 起 来 。 


在 原子 区 域外 访问 存储 位 置 x， 如 果 在 原子 区 域 之 外 也 访问 同一 个 人 存储 位 置 x， 那 么 不 保证 两 个 访问 能 够 独占 地 执行 ， 即 使 这 些 访问 发 生 在 一 个 归 约 子 语 的 执行 期 间 。 
如 果 x 指 向 的 存储 位 置 没有 按 尺 寸 对 齐 ( 即 ， 如 果 x 的 对 齐 字 节 数 不 是 x 尺寸 的 整数 倍 ) ， 那 么 原子 区 域 的 行为 由 编译 器 定义 。 
使 用 限制 : 

* 在 整个 程序 内 ， 对 x 指 向 位 置 的 所 有 原子 访问 要 求 有 相同 的 类 型 和 相同 的 类 型 参数 。 

: x 指 向 存储 位 置 的 尺寸 必须 小 于 或 等 于 原生 原子 操作 符 的 最 大 可 用 尺寸 。 


当 循 环 的 多 个 迭代 步 需要 同时 访问 内 存 中 某 个 地 址 时 会 发 生 数据 竞争 。 例 如 ， 如 果 一 个 迭代 步 正在 修改 一 个 变量 的 值 ， 而 另 一 个 迭代 步 也 正 试 图 读 取 该 变量 ， 那 么 进 代步 访问 的 先后 顺序 不 同 ， 得 到 的 
结果 可 能 也 不 同 。 在 串 行 程序 中 ， 顺 序 循 环保 证 以 可 预测 的 顺序 修改 变量 ， 但 并 行程 序 无 法 保证 一 个 指定 的 迭代 步 能 在 另 一 个 迭代 步 之 前 执行 。 一 些 简单 的 场景 ， 例 如 求 和 、 求 最 大 值 、 求 最 小 值 ， 一 个 归 
约 操 作 就 可 以 保证 正确 性 。 但 对 更 复杂 的 操作 ，atomic 导 语 能 够 保证 不 会 有 两 个 线程 同时 执行 导语 所 包含 的 操作 。 为 保证 并 行 化 的 正确 性 ， 有 时 候 必须 使 用 原子 操作 。 


举例 说 明 atomic 导 语 的 一 个 应 用 场景 。 对 一 个 输入 集合 ， 统 计 元 素 值 出 现 次 数 的 常用 技术 是 直方 图 。 图 3.18 就 是 一 个 直方 图 ， 它 对 落 入 特定 区 间 的 数字 进行 计数 。 例 3.50 对 一 串 位 于 已 知 区 间 内 的 整数 
数字 循环 ， 统 计 每 个 数字 在 相应 区 间 里 的 出 现 次 数 。 因 为 每 个 数字 可 以 出 现 多 次 ， 所 以 必须 保证 原子 地 更 新 直方 图 数组 的 每 个 元 素 。 例 3.50 和 例 3.51 演 示 了 如 何 使 用 atomic 导 语 生成 直方 图 。 


图 3.18 ”统计 直方 图 


[43.50] a1c.c: 统计 随机 数 的 直方 图 (CHR). 


#include<stdio.h> 
#include<stdlib.h> 
#include<time.h> 
int main () 


int *vec, h[10]; 
int length = 1024; 


vec = (int*)malloc (sizeof (int) *length) ; 
srand ( (unsigned) time (NULL) ) ; 


C (00090-10014 C0 P2 E2 


n 


11 for(int idx = 0; idx < length; idx++ ) 
12 vec [idx] = rand()%10; 

13 for(int idx = 0; idx < 10; idx++) 

14 h[idx] = 0; 

i15 #pragma acc parallel loop 

16 for(int idx = 0; idx < length; idx++ ) 
17 { 

18 #pragma acc atomic update 

19 h[vec[idx]] += 1; 

20 } 

21 for(int idx = 0; idx < 10; idx++) 

22 printf ("h[%d] = Sd\n", idx, h[idx]); 
23 free (vec); 

24 return 0; 

25 } 


[453.51] a1££00: 统计 随机 数 的 直方 图 (Fortran 版 ) o 


program main 
implicit none 
integer h(0:9), length, idx 
integer, allocatable::vec(:) 
real rdn 
length = 1024 
h(:) = 0 
allocate (vec (length) ) 
call random seed () 
do idx = 1, length 
call random number (rdn) 
vec (idx) = rdn * 10 
enddo 
!$acc parallel loop 
do idx = 1, length 
!$acc atomic update 
h(vec(idx)) = h(vec(idx)) + 1 
enddo 
print*, "h=", h(0:9) 
deallocate (vec) 
end program 


(3.505811 ~ 12 行 随机 生成 一 批 0~ 9 之 间 的 整数 ， 保 持 在 数组 vec 之 中 。 第 15~20 行 是 Parallel 导语 建立 的 并 行 区 域 ， 在 区 域内 部 的 第 18 行 使 用 automic update 子 语 来 保证 ， 在 某 一 时 刻 数组 h 的 每 个 元 
素 最 多 只 有 一 个 线程 访问 。 用 数组 h 的 元 素 值 绘制 直方 图 ， 得 到 图 3.18。 


第 4 草 ”数据 管理 


从 第 3 章 中 的 例子 可 知 ， 主 机 与 设备 之 间 的 数据 传输 会 消耗 大 量 运行 时 间 。 为 了 尽 可 能 减少 数据 传输 时 间 ， 需 要 用 到 一 些 管 理工 具 。 这 些 工具 的 用 途 是 在 主机 与 设备 之 间 搬 移 数据 : 分 配 设备 内 存 、 复 制 
所 需 数据 、 释 放 设 备 内 存 。 本 章 将 详细 讲解 OpenACC 的 多 个 数据 子 语 和 数据 导语 ， 适 用 于 不 同 的 场景 。 


OpenACC 管 理 数 据 的 方式 很 简单 : 名 字 国 定 、 指 向 变换 。 如 图 4.1 所 示 ， 一 个 主机 变量 和 一 个 设备 变量 相互 对 应 ， 变 量 名 相同 ， 在 主机 上 运行 时 ， 读 写 主机 变量 ， 在 设备 上 运行 时 ， 读 写 设 备 变量 。 主 机 


运行 阶段 的 设备 变量 和 设备 运行 阶段 的 主机 变量 ， 对 程序 员 不 可 见 ， 只 能 利用 DOpenACC 寻 语 或 函数 来 操作 。 


主机 内 存 设备 内 存 
a—» DOO 


| #pragma acc kernels | | 
' for(i-0; i <N; i++) | 2-0 >i 1 PL 
afi] = b[1] + cli]; i 


D = e e áe åE å å e å e o e a ee ee -—  a-—À e 8 -— e ë ë ë e ë 0m 


printf("a[N-1] = $d*Mn", a[N-1]); 


图 4.1 变量 名 称 的 指向 变换 


结合 例 4.1 和 图 4.1 说 明 变 量 名 的 指向 变换 方式 : 第 6~10 行 将 3 个 数据 初始 化 ， 运 行 在 主机 上 ， 变 量 名 a 指 向 主机 内 存 中 的 地 址 ; 第 12~13 行 更 新 数组 a， 运 行 在 设备 上 ， 变 量 名 a 指 向 设备 内 存 中 的 地 址 ; 第 
15 行 输出 数组 元 素 值 ， 运 行 在 主机 上 ， 变 量 名 a 又 重新 指向 主机 内 存 中 的 地 址 。 


【 例 4.1】dic.c: 两 个 数组 对 应 元 素 相 加 (与 例 3.5 klc.c 相 同 ) 。 


1 #include<stdio.h> 

2 +#define N 256 

3 int main() 

4 ( 

5 int i, a[N], b[N], c[N]; 
6 for(i = 0; i < N; i++) 

7 { 

8 ali] = 0; 

9 plil eem] = iš 
10 } 
11 #pragma acc kernels 
12 for(i-0; i <N; i++) 
13 ali] = b[i] + clil; 
14 
15 printf ("a[N-1] = d\n", a[N-1]); 
16 return 0; 


17 ] 


例 4.1 对 应 的 Fortran 版 代码 与 例 3.6 完 全 相同 ， 这 里 不 再 列 出 。 
既然 主机 内 存 中 的 数据 与 设备 内 存 中 的 数据 有 对 应 关系 ， 那 么 问题 来 了 ， 设 备 上 的 数据 如 何 分 配 ? 从 哪里 来 ， 到 哪里 去 ? 


对 非 共享 内 存 的 系统 而 言 ， 设 备 内 存 中 的 数据 的 生命 周期 可 以 划分 为 以 下 几 个 阶段 (参见 图 4.2) : 
主机 内 存 设备 内 存 


COPI 四 分 到 设备 内 存 


四 主机 复制 到 设备 


ae 


És n 


(3 设备 上 计算 


[ 国 < 0 和 生生 @ 设 备 复制 到 主机 
加 释放 设备 内 存 


图 4.2 ”设备 数据 的 生命 周期 


中 分 配 设备 内 存 : 程序 员 显 式 指定 (或 者 编译 器 自行 探测 添加 相应 子 语 ) ， 上 有 具体 指定 方法 蕊 上 会 讲解 。 

DRIA: 如 果 不 需要 赋 初 值 ， 跳 过 ; 否则 ， 用 主机 上 复制 过 来 的 数据 给 刚 分 配 的 设备 内 存 赋 初 值 。 

@@ 在 设备 数据 上 执行 计算 操作 : 这 是 并 行 化 的 目的 。 

取 回 计算 结果 : 如 果 只 是 用 来 存储 临时 数据 ， 跳 过 ; 否则 ， 把 设备 数据 的 一 部 分 或 者 全 部 复制 到 对 应 的 主机 内 存 空间 。 
加 释放 设备 内 存 : 此 后 设备 数据 不 可 访问 。 


第 中 阶段 之 前 和 第 器 阶 段 之 后 ， 程 序 运行 在 主机 上 ， 变 量 名 指向 主机 内 存 地 址 ; (DW 阶段 由 运行 时 操作 ， 程 序 员 无 法 直接 干涉 。 


4.1 数据 属性 、 数 据 区 域 和 数据 生 仔 期 


本 节 概 括 性 很 强 ， 而 且 涉 及 一 些 未 讲解 的 导语 ， 建 议 第 一 次 遇 到 粗 读 即 可 ， 待 学 完 相 关 语 法 后 再 返回 细 读 。 


每 个 变量 都 有 自已 的 数据 属性 。 一 个 变量 的 数据 属性 可 以 是 预 置 (预先 确定 ) 、 隐 定 ( 隐 式 确定 ) 或 显 定 ( 显 式 指定 ) 。 具 有 预 置 数据 属性 的 变量 不 能 出 现在 与 该 数据 属性 相 冲 突 的 数据 子 语 中 。 具 有 
隐 定 数据 属性 的 变量 可 以 出 现在 那些 能 覆盖 预 置 属性 的 数据 子 语 中 。 数 据 构件 、 计 算 构 件 或 declare 导 语 上 的 数据 子 语 中 出 现 的 变量 拥有 显 定 属性 。 优 先 级 别 是 : 显 定 > 隐 定 > Me. 


OpenACC 支 持 加 速 器 内 存 与 主机 内 存 相 分 离 的 系统 ， 也 支持 加 速 器 与 主机 共享 内 存 的 系统 。 前 一 种 情形 称 为 非 共 享 内 存 设备 ， 系 统 具 有 相互 分 离 的 加 速 器 内 存 与 主机 内 存 。 后 一 种 情形 称 为 共享 内 存 
设备 ， 加 速 器 与 主机 线程 共享 内 存 ， 系 统 拥有 一 个 共享 内 存 。 当 一 个 秦 套 的 构件 在 设备 上 执行 时 ， 该 构件 的 缺 省 目标 设备 就 是 所 遭遇 的 加 速 器 线程 所 在 的 设备 。 这 种 情况 下 ， 目 标 设备 与 所 遭遇 线程 共享 内 
存 空间 。 


在 共享 内 存 设备 上 ， 本 地 线程 和 加 速 器 均 可 访问 数据 。 在 变量 的 整个 生存 期 之 内 ， 加 速 器 都 可 以 访问 ;在 非 共 享 内 存 设备 上 ， 需 要 为 主机 内 存 中 的 数据 分 配 设备 内 存 空间 ， 并 使 用 数据 构件 、 子 语 和 接 
口 例 程 在 主机 内 存 和 设备 内 存 之 间 来 回复 制 数据 。 数 据 生 存 期 就 是 从 数据 对 加 速 器 可 用 到 不 可 用 之 间 的 持续 时 间 ， 例 如 数据 从 设备 内 存 释放 掉 以 后 就 不 可 用 了 。 


数据 区 域 有 以 下 4 种 : 


1) 当 遇 到 一 个 数据 构件 ， 程 序 就 创建 一 个 数据 区 域 。 为 数据 构件 而 在 设备 上 创建 的 数据 ， 它 的 生存 期 与 数据 构件 相关 联 ; 在 程序 退出 这 个 数据 区 域 之 前 ， 该 数据 一 直 可 用 。 


2) 若 一 个 计算 构件 带 有 显 式 数据 子 语 或 带 有 编译 器 添加 的 隐 式 数据 空间 分 配 ， 那 么 当 程序 遇 到 它 的 时 候 ， 束 会 创建 一 个 与 该 计算 构件 生存 期 相同 的 数据 区 域 。 为 这 个 计算 构件 而 在 加 速 器 上 创建 的 数 
据 ， 它 的 生存 期 与 构件 关联 区 域 的 生存 期 相同 ， 就 像 带 有 一 个 数据 构件 一 样 。 


3) 当 进 入 一 个 过 程 的 时 候 ， 程 序 创建 一 个 隐 式 数据 区 域 ， 它 的 生存 期 与 该 过 程 相同 。 也 就 是 说 ， 过 程 被 调用 时 创建 隐 式 数据 区 域 ， 程 序 从 过 程 调用 点 返回 时 退出 这 个 隐 式 数据 区 域 。 隐 式 数 据 区 域内 ， 
在 加 速 器 上 创建 的 数据 ， 它 的 生存 期 与 被 调用 过 程 相同 。 


4) 程序 执行 过 程 本 身 也 有 一 个 隐 式 数据 区 域 。 隐 式 程序 数据 区 域 的 生存 期 就 是 程序 的 执行 过 程 。 在 加 速 器 上 创建 的 静态 数据 或 全 局 数据 ， 它 们 的 生存 期 是 程序 的 执行 过 程 ， 或 者 从 程序 连接 并 初始 化 加 
速 器 开始 ， 直 到 断 开 并 关闭 加 速 器 结束 。 


除了 数据 生存 期 ， 一 个 程序 还 可 以 使 用 enter data 导 语 和 exit data 导 语 或 运行 时 接口 例 程 在 加 速 器 上 创建 和 删除 数据 。 当 程序 执行 一 个 enter data 导 语 时， 或 者 调用 运行 时 接口 例 程 acc_copyin 或 
acc create 时 ， 程 序 就 进入 一 个 数据 生存 期 ， 其 作用 范围 包括 相应 导语 上 的 所 有 变量 、 数 组 、 子 数组 ， 或 者 相应 运行 时 例 程 参数 列表 里 的 所 有 变量 。 用 这 种 方法 创建 的 加 速 器 变量 ， 它 的 生存 期 从 执行 相应 
导语 或 调用 相应 运行 时 例 程 时 开始 ， 直 到 执行 一 个 exit data 导 语 或 者 调用 运行 时 例 程 acc_copyout 或 acc_delete 结 束 ; 如 果 没 有 exit data 导 语 或 者 没有 调用 合适 的 运行 时 例 程 ， 那 么 加 速 器 上 数据 的 生存 期 
将 延续 至 程序 退出 。 


4.2 ”计算 构件 的 伴随 数据 区 域 


前 面 讲述 计算 构件 时 ， 注 意 力 集中 在 计算 构件 的 各 种 行为 上 面 ， 忽 略 了 数据 是 如 何 传递 的 。 实 际 上 ， 每 个 计算 构件 都 伴随 着 一 个 数据 区 域 ， 它 是 OpenACC 的 4 种 数据 区 域 之 一 。 


如 果 一 个 计算 构件 带 有 显 式 数据 子 语 或 带 有 编译 器 添加 的 隐 式 数据 空间 分 配 ， 那 么 当 程 序 遇 到 它 的 时 人 息 ， 就 会 创建 一 个 与 该 计算 构件 生存 期 相同 的 数据 区 域 。 为 这 个 计算 构件 而 在 加 速 器 上 创建 的 数 
据 ， 它 的 生存 期 与 构件 关联 区 域 的 生存 期 相同 。 这 段 话 有 点 难 理解 ， 用 几 个 例子 说 明 。 


kernels 导 语 可 以 携带 的 数据 子 语 为 : 


copy (变量 列表 ) 

copyin (变量 列表 ) 
copyout (变量 列表 ) 
create (变量 列表 ) 
present (变量 列表 ) 
deviceptr (变量 列表 ) 
default (none|present) 


paralle| 导 语 可 以 携带 的 数据 子 语 为 : 


copy (变量 列表 ) 

copyin (变量 列表 ) 
copyout (变量 列表 ) 
create (变量 列表 ) 
Present (变量 列表 ) 
deviceptr (变量 列表 ) 
private (变量 列表 ) 
firstprivate (变量 列表 ) 
default (none|present) 


loop 导 语 可 以 携带 的 数据 子 语 为 : 


private (列表 ) 
reduction (操作 符 : 列 表 ) 


这 里 的 变量 列表 、 人 列表 是 指 单个 变量 或 一 串 用 逗号 隔 开 的 变量 。 例 如 : 


a 
b[2:3] 
a,b[2:3],c[:10000] 


列表 中 的 变量 个 数 没 有 限制 ， 但 通常 也 不 会 写 很 多 个 。 如 果 需 要 列 出 成 百 上 干 个 变量 ， 那 么 应 该 考虑 用 数组 封装 一 下 。 
下 面 两 段 描述 中 ， 尚 未 讲 过 的 构件 、 导 语 可 以 先 跳 过 ， 后 文 会 详 述 。 


这 些 数 据 子 语 可 以 出 现在 parallel 构 件 、kernels 构 件 、data 构 件 、enter data 导 语 和 exit data 导 语 上 。 每 个 子 语 的 参数 列表 是 一 串 用 逗号 分 隔 的 变量 名 字 、 数 组 名 字 或 给 定 下 标 范围 的 子 数组 。 如 果 一 
个 由 两 个 斜 杠 包围 的 Fortran 公 共 块 名 字 出 现在 一 个 declare 导 语 的 link 子 语 中 ， 那 么 对 deviceptr 和 present 之 外 的 所 有 子 语 ， 参 数列 表 中 也 可 以 包含 这 个 公共 块 的 名 字 。 在 所 有 情形 下 ， 编 译 器 都 会 在 设备 内 
人 存 上 为 这 些 变量 或 数组 创建 、 管 理 一 个 副本 ， 即 为 变量 和 数组 创建 一 个 可 见 设 备 副 本 。 


这 样 做 是 为 了 支持 那些 在 物理 内 存 上 和 逮 辑 内 存 上 都 与 本 地 线程 相 分 离 的 加 速 器 。 然 而 ， 如 果 加 速 器 可 以 直接 访问 本 地 内 存 ， 那 么 编译 器 可 以 通过 简单 地 共享 本 地 内 存 中 的 数据 来 避免 开辟 内 存 空 间 和 
数据 移动 。 所 以 ， 如 果 一 个 程序 在 主机 端 使 用 并 为 数据 赋值 ， 在 设备 上 也 使 用 相同 的 数据 并 为 之 赋值 ， 且 没有 使 用 update 导 语 来 管理 两 个 副本 的 一 致 性 ， 那 么 使 用 不 同 的 编译 器 、 不 同 的 加 速 器 都 有 可 能 得 
到 不 同 的 结果 。 


使 用 限制 


- 数据 子 语 不 能 跟 在 device_type 子 语 后 面 。 


4.3 _ data 构件 


考虑 Jacobi 的 主体 迭代 ， 每 次 迭代 都 要 为 u0 和 u1 分 配 、 释 放 设 备 内 存 。 如 果 只 在 进入 主体 循环 之 前 分 配 设备 内 存 ， 在 离开 主体 循环 之 后 释放 设备 内 存 ， 就 可 以 减少 内 存 操作 时 间 。 此 时 可 以 用 data 构 件 
来 完成 这 个 任务 。 


无 论 是 否 需要 在 进入 本 区 域 时 将 数据 从 主机 复制 到 当前 设备 的 内 存 ， 也 无 论 是 否 需 在 离开 本 区 域 时 将 数据 从 设备 复制 到 主机 内 存 ， 在 本 区 域 的 持续 期 内 ，data 构 件 指定 的 标量 、 数 组 和 子 数组 都 会 在 设 
备 内 存 上 拥有 空间 。 


AA enter data 导 语 和 exit data 导 语 


计算 构件 上 的 数据 子 语 和 data 构 件 都 是 封闭 的 数据 生存 期 ， 构 件 开始 的 时 候 在 设备 内 存 中 分 配 空间 ， 在 构件 结束 时 释放 设备 内 存 。 但 是 在 某 些 场景 下 ， 这 些 结构 化 的 数据 生存 期 没 办 法 使 用 ， 这 是 因为 
它 不 能 跨越 多 个 例 程 。 当 然 了 ，enter data/exit data 导 语 在 节省 数据 搬迁 时 间 方 面 比 data 构 件 更 给 力 ， 而 且 更 灵活 。 


enter data 导 语 用 来 定义 在 设备 上 分 配 空间 的 标量 、 数 组 和 子 数组 ， 这 些 数据 在 程序 的 存续 期 内 一 直 存 在 ， 直 至 遇 到 一 个 exit data 导 语 来 释放 数据 。 它 们 还 可 以 说 明 是 否 在 enter data 导 语 处 将 数据 从 
主机 内 存 复制 到 设备 内 存 ， 是 否 在 exit data 导 语 处 将 数据 从 设备 内 存 复制 到 主机 内 存 。enter data 导 语 与 匹配 的 exit data 导 语 之 间 的 程序 动态 范围 是 相应 数据 的 生存 期 。 


C 和 C++ 中 ，enter data 导 语 的 语法 是 : 
#pragma acc enter data 子 语 列表 ”换行 
Fortran 中 ，enter data 导 语 的 语法 是 : 
!$acc enter data 子 语 列表 


这 里 的 子 语 为 下 列 中 的 一 个 : 


copyin (变量 页 
(REF 


C 和 C++ 中 ，exit data 导 语 的 语法 是 : 
#pragma acc exit data 子 语 列表 ”换行 
Fortran 中 ，exit data 导 语 的 语法 是 
1Sacc exit data 子 语 列表 

这 里 的 子 语 为 下 列 中 的 一 个 : 


if (44 

async[ (整数 表达 式 ) ] 
wait[ (整数 表达 式 列表 ) ] 
copyout (变量 列表 ) 
delete (变量 列表 ) 
finalize 


一 个 enter data 导 语 将 在 当前 设备 内 存 中 分 配 空间 ， 并 可 选择 将 数据 从 主机 内 存 或 本 地 内 存 复制 到 设备 内 存 。 由 此 进入 了 这 些 变量 、 数 组 和 子 数组 的 一 个 生存 期 ， 在 数据 生存 期 内 ， 这 些 数 据 可 以 用 在 
构件 的 present 子 语 中 。 这 些 数据 的 动态 引用 计数 增加 。 


一 个 exit data 导 语 ， 可 选 地 将 数据 从 设备 内 存 复制 到 主机 内 存 或 本 地 内 人 存 ， 然 后 从 设备 内 存 中 撤销 数据 。 如 果 没 有 出 现 finalize 子 语 ， 那 么 这 个 数据 的 动态 引用 计数 减 小 。 如 果 出 现 一 个 finalize 子 语 ， 


那么 将 这 个 数组 的 动态 引用 计数 设 定 为 零 。 


if 子 语 是 可 选项 。 没 有 if 子 语 的 时 候 ， 编 译 器 生成 的 代码 将 在 加 速 器 设备 上 开辟 或 撤销 内 存 空间 ， 并 在 设备 内 存 与 本 地 内 存 之 间 移 动 数据 。 有 if 子 语 的 时 候 ， 程 序 有 条 件 地 分 配 或 撤销 设备 内 存 ， 并 将 数 
据 移 动 到 设备 上 或 将 数据 从 设备 上 取 回 。 当 if 子 语 中 条 件 的 值 为 零 (对 C 和 C++) 或 .false. (对 Fortran) 时 ， 不 会 分 配 或 撤销 设备 内 存 ， 也 不 会 移动 数据 。 当 条 件 的 值 为 非 零 (对 C 和 C++) 或 .true. (对 
Fortran) 时 ， 数 据 将 按照 指定 的 方式 创建 、 撤 销 和 移动 。 


delete 子 语 可 以 出 现在 exit data 导 语 上 。 如 果 当 前 设备 是 一 个 共享 内 存 设备 ， 无 动作 。 如 果 当 前 设备 是 一 个 非 共 享 内 存 设备 ， 那 么 delete 子 语 的 行为 如 下 。 在 一 个 不 带 finalize 子 语 的 exit data 导 语 上 
时 ， 如 果 变 量 列表 中 的 数据 已 经 存在 于 当前 设备 上 ， 那 么 动态 引用 计数 减 小 。 在 一 个 带 有 finalize 子 语 的 exit data 导 语 上 时 ， 如 果 变 量 列表 中 的 数据 已 经 存在 于 当前 设备 上 ， 那 么 动态 引用 计数 设 定 为 零 。 在 
这 两 种 情形 下 ， 只 要 两 个 引用 计数 随后 为 零 ， 那 么 就 释放 内 存 。 不 必 将 数据 从 设备 内 存 复制 到 本 地 内 存 。 一 个 带 有 delete 子 语 的 exit data 导 语 ， 带 或 不 带 finalize 子 语 ， 功 能 上 分 别 等 同 于 调用 接口 例 程 


acc delete finalize 或 acc_delete， 这 两 个 例 程 的 详 述 参见 8.2 节 。 


finalize 子 语 可 以 出 现在 exit data 导 语 上 ， 是 可 选项 。 没 有 出 现 finalize 子 语 时 ， 对 copyout 子 语 和 delete 子 语 中 的 变量 和 数组 ，exit data 导 语 将 减 小 它们 的 动态 引用 计数 。 如 果 出 现 一 个 finalize 子 语 ， 
对 copyout 子 语 和 delete 子 语 中 的 变量 和 数组 ，exit data 将 它们 的 动态 引用 计数 设 定 为 零 。 


45 update 导语 
考虑 这 样 的 场景 : 使 用 data 构 件 或 者 enter data/exit data 导 语 建立 了 一 个 大 的 数据 区 域 ， 与 主机 内 存 的 数据 交换 只 能 在 入 口 和 出 口 处。 但 是 ， 如 果 在 数据 区 域 中 间 想 交 换 数据 怎么 办 呢 ? update 导 语 
正 是 为 解决 这 个 问题 而 设计 的 。 


在 加 速 器 数据 的 生存 期 内 ，update 导 语 从 设备 内 存 中 取出 相应 的 值 ， 用 来 更 新 本 地 变量 、 数 组 的 部 分 元 素 或 全 部 元 素 ; 或 者 从 本 地 内 存 中 取出 相应 的 值 ， 用 来 更 新 设备 变量 、 数 组 的 部 分 元 素 或 全 部 元 


< 和 C++ 中 ，update 叶 语 的 语法 是 : 

#pragma acc update 子 语 列表 ”换行 
Fortran 中 ，update 导 语 的 语法 是 : 
!$acc update 子 语 列表 


这 里 的 子 语 是 下 列 中 的 一 个 : 


async[ (整数 表达 式 ) ] 

wait[ (整数 表达 式 列表 ) ] 
device type (设备 类 型 列表 ) 
if (条 件 ) 

if present 

self (变量 列表 ) 

host (变量 列表 ) 


device (变量 列表 ) 


update 子 语 的 参数 变量 列表 是 一 串 用 逗号 分 隔 的 变量 名 、 数 组 名 或 限定 范围 的 子 数组 。 同 一 个 数组 的 多 个 子 数 组 可 以 出 现在 同一 个 导语 的 同一 个 子 语 的 变量 列表 内 ， 也 可 以 出 现在 同一 个 导语 的 不 同 子 
语 的 变量 列表 内 。 对 update self，update 子 语 的 效果 是 将 加 速 器 设备 内 存 中 的 数据 复制 到 本 地 内 存 ; 对 update device，update 子 语 的 效果 是 将 本 地 内 存 中 的 数据 复制 到 加 速 器 设备 内 存 。 数 据 的 更 新 顺 
序 与 它们 在 子 语 中 出 现 的 顺序 相同 。 对 self 子 语 或 device 子 语 中 的 变量 或 数组 ， 如 果 它 们 没有 设备 副本 ， 那 么 无 动作 。 该 导语 上 至少 要 出 现 self 子 语 、host 子 语 和 device 子 语 中 的 一 个 。 


对 非 共 享 内 存 加 速 器 ，host 子 语 明确 要 求 将 变量 列表 里 的 变量 、 数 组 或 子 数组 从 加 速 器 设备 内 存 复制 到 本 地 内 存 。 如 果 加 速 器 与 遭遇 线程 共享 同一 个 内 存 ， 那 么 无 动作 。 带 有 host 子 语 的 update 导 语 等 
价 于 调用 例 程 acc_update_sef， 该 例 程 的 详 述 在 8.2 节 。 


self 子 语 是 host 子 语 的 同义词 。 


对 非 共 享 内 存 加 速 器 ，device 子 语 明确 要 求 将 变量 列表 里 的 变量 、 数 组 或 子 数组 从 本 地 内 存 复制 到 加 速 器 设备 内 存 。 如 果 加 速 器 与 遭遇 线程 共享 同一 个 内 存 ， 无 动作 。 带 有 devcie 子 语 的 update 导 语 等 
价 于 调用 例 程 acc_update _device， 该 例 程 的 详 述 在 8.2 节 。 


if 子 语 是 可 选项 ;没有 if 子 语 的 时 候 ， 编 译 器 将 生成 无 条 件 更 新 的 代码 。 有 if 子 语 的 时 候 ， 编 译 器 将 生成 有 条 件 更 新 的 代码 ， 只 有 当 条 件 的 值 在 C/C+ + 中 为 非 0 或 在 Fortran 中 为 .true. 时 才 进 行 更 新 。 


当 导语 上 出 现 一 个 if_present 子 语 时 ， 如 果 变 量 列 表 里 的 变量 或 数组 不 存在 于 当前 设备 ， 那 么 对 它们 无 动作 。 当 导语 上 没有 if_present 子 语 时 ，device 子 语 或 self 子 语 中 的 所 有 变量 或 数组 都 必须 存在 于 
当前 设备 ， 如 果 这 些 数 组 不 在 设备 上 ， 那 么 编译 器 将 中 止 该 程序 并 报错 。 对 一 个 变量 或 数组 ， 在 不 确定 它 是 否 有 设备 副本 的 时 候 ，if_present 子 语 能 够 避免 错误 。 


使 用 限制 : 
: update 导语 是 可 执行 的 。 在 C 和 C++ 中 ， 它 不 准 出 现在 紧 跟 if、while、do、switch、label 的 语 名 位置 上 ; 在 Fortran 中 ， 它 不 准 出 现在 紧 跟 逻辑 if 的 语句 位 置 上 。 
. 如 果 寻 语 上 没有 if_pbresent， 变 量 列表 中 的 每 一 个 变量 和 数组 必须 已 经 存在 于 当前 设备 上 。 
只 有 asyhc 和 wait 子 语 可 以 跟 在 一 个 device_type 子 语 后 面 。 
至 多 可 以 出 现 一 个 if 子 语 。Fotrtran 中 ， 条 件 的 求 值 结果 必须 是 一 个 标量 逻辑 值 ; C 或 C++ 中 ， 条 件 的 求 值 结 果 必 须 是 一 个 标量 整数 值 。 


* 可 以 指定 不 连续 的 子 数组 。 更 新 不 连续 区 域 时 ， 可 以 将 每 个 连续 的 子 区 域 传输 一 次 ， 也 可 以 将 所 有 不 连续 数据 打包 一 次 完成 传输 ， 然 后 解 包 ; 还 可 以 更 新 一 个 或 多 个 更 大 的 子 数组 (包含 被 指定 子 数 


组 的 最 小 连续 区 域 ) 。 编 译 器 自主 选择 采取 哪 种 更 新 方式 。 
CC 和 C++ 中 ， 可 以 指定 结构 或 类 的 成 员 ， 包 括 成 员 的 子 数 组 。 不 能 指定 结构 或 类 子 数 组 的 成 员 。 
CC 和 C++ 中 ， 如 果 一 个 结构 成 员 使 用 某 个 子 数组 记号 ， 那 么 该 结构 成 员 的 父 类 型 就 不 能 再 使 用 子 数组 记号 。 
* Fortran 中 ， 可 以 指定 派生 类 型 变量 的 成 员 ， 包 括 一 个 成 员 的 子 数组 。 不 能 指定 派生 类 型 子 数组 的 成 员 。 
Fortran 中 ， 如 果 用 到 了 一 个 派生 类 型 成 员 的 数组 或 子 数组 记号 ， 该 派生 类 型 成 员 的 父 类 型 就 不 能 再 使 用 数组 或 子 数组 记号 。 


update 导 语 可 以 用 在 data 导 语 和 enter data/exit data 导 语 这 些 非 结构 化 数据 生存 期 之 中 。 例 4.35 和 例 4.36 是 在 data 构 件 中 使 用 update host 导 语 ， 在 enter data/exit data 导 语 中 的 用 法 与 之 类 似 ， 不 
再 重复 举例 。 


[454.35] di2c.c: update 导 语 用 在 data 导 语 中 (〈 在 例 4.33 dllc.c 基 础 上 修改 ) o 


#include<stdio.h> 
void addl(float* vec, int len) 


{ 


#pragma acc parallel loop present (vec[0:1en]) 
for(int idx = 0; idx < len; idx++) 


vec[idx] = vec[idx] + idx; 
} 
int main () 
float *v1; 
int len = 1024; 
vl = (float*)malloc (sizeof (int)*len); 
for(int idx = 0; idx < len; idx ++) 


vi[idx] = 0.0f; 
#pragma acc data copyin(v1[0:1en]) 
{ 
addl (vl, len); 
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#pragma acc update host (v1[1:1]) 
20 printf ("v1 [1]=S£\n", v1[1]); 
21 vl[1] = vi[1] + 10; 
22 #pragma acc update device (v1[1:1]) 
23 
24 addl1 (vl, len); 
25 #pragma acc update host (v1[1:1]) 
26 printf ("v1[1]=3f\n", v1[1]); 
27 } 
28 free (v1); 
29 return 0; 
30 } 


[454.36] d12c.c: update 导 语 用 在 data 导 语 中 (在 例 3.34 d12£. £90 hak EBL) 。 


program main 
implicit none 
real,allocatable:: v1(:) 
integer length, idx 
length = 1024 
allocate (v1 (Length) ) 
vl(1:length) = 0.0 
!$acc data copyin (v1 (1:length) ) 
call addl(vl, length) 


!Sacc update device (v1 (1:1)) 
call addl(vl, length) 
!Sacc update host (v1 (1:1) ) 
print*, "vl(1) =", vl(1) 


!Sacc end data 

deallocate (v1) 
endprogram 
subroutine addl (vec, length) 
implicit none 

integer, intent (in)::length 

real, intent (inout)::vec(1:length) 

integer idx 

!$acc parallel loop present (vec (1:length) ) 

do idx = 1, length 

vec (idx) = vec(idx) + idx 

enddo 

end subroutine 


例 4.35 第 16 行 上 data 导 语 创建 的 数据 生存 期 覆盖 第 16~27 行 。 在 这 个 生存 期 内 ， 第 19 行 上 的 update host 导 语 将 数组 元 素 v1[1] 从 设备 复制 到 主机 ， 第 22 行 上 的 update device 导 语 将 数组 元 素 v1[1] 从 主 
机 复制 到 设备 。 


46 _ declare 导语 


前 面 介 绍 的 数据 生存 期 逐步 扩大 ， 计 算 构件 伴随 的 生存 期 <data 构 件 生存 期 <enter data/exit data 导 语 生存 期 。 但 是 ， 如 果 想 要 更 大 的 设备 数据 生存 期 ， 例 如 跟 主 机 数据 的 生存 期 一 样 长 ， 这 时 候 就 该 
declare 导 语 出 场 了 。 


一 个 declare 导 语 用 在 Fortran 子 例 程 、 函 数 或 模块 的 声明 部 分 ， 或 者 跟 在 C/C++ 变 量 声明 之 后 。 它 指定 的 变量 或 数组 需要 在 设备 内 存 上 开辟 空间 ， 在 一 个 函数 、 子 例 程 或 程序 的 隐 式 数据 区 域 的 生存 期 
之 内 ， 这 些 变量 一 直 驻 留 设 备 内 存 中 。 它 还 能 指定 是 否 需 要 在 隐 式 数据 区 域 的 入 口 处 将 数据 值 从 主机 内 存 传递 到 设备 内 存 ， 是 否 需 要 在 隐 式 数据 区 域 的 出 口 处 将 数据 从 设备 内 存 传递 到 主机 内 存 。 这 个 导语 
为 变量 或 数组 创建 一 个 可 见 设备 副本 。 


c 和 C++ 中 ，declare 导 语 的 语法 是 : 
#pragma acc declare 子 语 列 表 换行 
Fortran 中 ，declare 导 语 的 语法 是 : 
!Sacc declare 子 语 列表 

这 里 的 子 语 是 下 列 中 的 一 个 : 


copy (变量 列表 ) 

copyin (变量 列表 ) 

copyout (变量 列表 ) 

create (变量 列表 ) 

present ( 变 

deviceptr (变量 列表 ) 
device resident (变量 列表 ) 
link( 变量 列表 ) 


m 
dl 


declare 导 语 所 在 函数 、 子 例 程 或 程序 的 隐 式 数据 区 域 是 其 关联 区 域 。 如 果 declare 导 语 出 现在 Fortran 模 块 的 子 程序 中 ， 或 者 出 现在 C/C+ + 全 局 作用 域 中 ， 那 么 整个 程序 的 隐 式 数据 区 域 就 是 其 关联 区 
域 。 数 据 子 语 copy、copyin、copyout、present 的 详细 描述 在 4.2 节 。 


使 用 限制 : 
. 对 导语 上 子 语 内 的 任何 变量 或 数组 ，declate 导 语 必须 出 现在 这 些 变量 或 数组 的 生存 期 之 内 。 
. 在 一 个 函数 、 子 例 程 、 程 序 或 模块 中 ， 一 个 变量 或 数组 在 所 有 declare 导 语 的 所 有 子 语 中 只 能 出 现 至 多 一 次 。 
- 子 数组 不 允许 出 现在 declare 导 语 中 。 
Fortran 中 ， 不 定 尺 寸 形 参 数组 不 能 出 现在 declare 导 语 中 。 
Fortran 中 ， 可 以 指定 指针 数组 ， 但 设备 内 存 中 不 再 保留 指针 的 指向 关系 。 
: 在 Fortran 模 块 的 声明 部 分 ， 只 允许 出 现 create、copyin、device_resident 和 link 子 语 。 
: 在 C 和 C++ 的 全 局 作用 域 中 ， 只 允许 出 现 cfeate、copyin、deviceptr、device_tesident 和 link 子 语 。 
C 和 C++ 的 外 部 变量 只 能 出 现在 declafe 导 语 上 的 cteate、copyin、deviceptt、device_tesident 和 1link 子 语 中 。 
| 在 C 和 C++ 中 ， 只 有 全 局 变量 和 extetn 变 量 才 可 能 出 现在 link 子 语 内 。 在 Fotrttan 中 ， 只 有 模块 变量 和 公共 块 名 字 ( 夹 在 两 个 斜 线 之 内 ) 才 可 以 出 现在 link 子 语 内 。 
. 在 C 或 C++ 中 ， 该 区 域内 的 一 个 longjmp 调 用 必须 返回 到 区 域内 的 一 个 setjmp 调 用 。 


: 在 C++ 中 ， 区 域内 抛 出 的 异常 必须 在 本 区 域内 处 理 。 


47 ”特定 设备 的 子 语 


想象 这 样 的 场景 : 程序 将 要 运行 在 多 种 类 型 的 设备 上 ， 而 不 同类 型 设备 上 的 数据 管理 方法 会 有 所 区 别 ， 怎 么 才能 让 某 个 子 语 只 对 特定 类 型 的 设备 起 作用 呢 ? 这 就 要 用 到 device_type 子 语 。 本 书 不 涉及 该 
子 语 的 使 用 ， 这 里 列 出 来 语法 供 读者 需要 时 参考 。 


使 用 device_ type 子 语 ， 导 语 可 以 为 不 同类 型 的 加 速 器 指定 不 同 的 子 语 和 子 语 参 数 。device _type 子 语 的 参数 是 一 个 用 逗号 分 隔 的 列表 ， 列 表 是 一 个 或 多 个 加 速 器 架构 名 称 标识 符 ， 或 者 是 一 个 星 号 。 单 
个 导语 可 以 有 一 个 或 几 个 device_type 子 语 。 导 语 上 不 带 device_type 子 语 的 子 语 可 以 适用 于 所 有 加 速 器 类 型 。 跟 在 一 个 device_type 子 语 后 面 ， 直 到 导语 结束 或 直到 下 一 个 device_type 子 语 之 间 的 所 有 子 
语 ， 都 与 这 个 device_type 子 语 相 关联 。 与 device_type 子 语 关 联 的 子 语 仅 在 为 对 应 加 速 器 设备 类 型 编译 时 才 起 作用 。 与 带 星 号 参数 的 device_type 子 语 相 关联 的 子 语 ， 对 没有 出 现在 本 导语 上 其 他 
device_type 子 语 中 的 加 速 器 设备 类 型 起 作用 。device_type 子 语 可 以 以 任意 顺序 出 现 。 对 每 个 导语 ， 只 有 特定 的 子 语 可 以 跟 在 device_type 子 语 后 面 。 


在 所 有 device_type 子 语 之 前 的 子 语 是 缺 省 子 语 。 如 果 某 个 缺 省 子 语 的 同名 子 语 与 device_type 子 语 相关 联 ， 那 么 该 子 语 后 一 次 出 现 的 参数 值 起 作用 。 如 果 没有 某 个 设备 的 device_type 子 语 ， 或 者 有 该 设 
备 的 device _type 子 语 但 没有 缺 省 子 语 的 同名 子 语 与 这 个 device_type 子 语 相关 联 ， 那 么 使 用 缺 省 值 。 


支持 哪些 加 速 器 设备 类 型 由 编译 器 决定 。 取 决 于 编译 器 和 编译 环境 ， 一 个 编译 器 可 能 只 支持 一 个 加 速 器 设备 类 型 ， 也 可 能 支持 多 个 加 速 器 设备 类 型 ,但 一 次 只 支持 一 个 ， 还 可 能 在 单 次 编译 中 支持 多 种 
加 速 器 设备 类 型 。 


加 速 器 的 体系 结构 名 字 可 以 比较 笼统 ， 例 如 某 个 制造 广 商 ， 或 者 比较 具体 ， 如 设备 的 某 个 特定 型 号 。OpenACC 2.5 推 荐 的 名 字 有 acc_device_nvidia、acc device radeon, acc device xeonphi, 


device type 子 语 可 以 指定 大 多 数 特定 体系 架构 名 字 ， 当 为 某 个 特定 的 设备 编译 时 ， 编 译 器 使 用 与 这 个 设备 类 型 相关 联 的 子 语 ; 与 其 他 所 有 device type 子 语 相关 联 的 子 语 将 被 忽略 。 在 这 个 语 境 中 ， 星 号 是 
最 宽泛 的 体系 结构 名 字 。 


device type 子 语 的 语法 是 : 


device type( * ) 
device type (设备 类 型 列表 ) 


device type 子 语 可 以 缩写 为 dtype。 


第 5 章 ”计算 区 域内 的 过 程 调用 


第 3 章 和 第 4 章 详细 介绍 了 OpenACC 的 计算 构件 和 数据 管理 导语 ， 用 它们 能 够 解决 大 量 的 代码 移植 工作 。 但 是 ， 稍 微 大 一 点 的 程序 都 会 有 很 多 函数 间 的 相互 调用 ， 那么 问题 来 了 ， 如 何在 加 速 区 域内 调用 
LV? patrallel 和 kernels 构 件 生成 的 CUDA 内核 是 从 主机 端 调用 ， 在 设备 端 运行 。 而 加 速 区 域内 调用 的 函数 是 从 设备 端 调用 ， 在 设备 端 运行 ， 编 译 器 必须 特别 处 理 。 


其 实 ， 例 3.23 和 例 3.25 已 在 计算 构件 内 调用 了 函数 max 和 min， 那 么 还 有 哪些 函数 能 够 在 计算 构件 内 直接 调用 呢 ? 编译 器 通常 会 自 带 一 些 基 本 函数 ， 例 如 PGI 编 译 器 (版 本 15.10) 就 在 头 文 件 accelmath.h 中 
列 出 了 C 语 言 支持 的 常用 函数 ， 摘 取 部 分 如 下 : 


acos asin atan atan2 COS cosh exp fabs 

fmax fmin log log10 pow sin sinh sqrt 

tan tanh 

acosf asinf atanf atan2f cosf coshf expf Fabsf 
Fmaxf tminf logf logl10f powf sinf sinhf Sqrtf 
tan tanhf 


Fortran 语 言 中 可 以 从 计算 区 域内 调用 的 函数 为 : 


abs acos aint asin atan atan2 COS cosh 

dble exp iand ieor int ior log log10 

max min mod not real sign sin sinh 

sqrt tan tanh 

在 实际 应 用 中 ， 这 些 内置 函 数 是 远 远 不 够 的 ，OpenACC 必 须 支持 从 计算 构件 内 调用 自 定 义 函 数 ， 这 就 用 到 本 章 的 主角 toutine 导 语 。 


为 直观 地 介绍 语法 ， 引 入 一 个 计 工 任务 : 对 任意 对 定 的 正 整 数 N， 用 实数 向 量 


X1, X2, a ANS. s Xj c RK. i= a j 


AHA ggal, Mm). s [xn] } 算法 很 简单 ， 将 {Xb X2, c, xj} 保 存在 数组 x 中 ， 将 Vi 的 计算 过 程 封装 成 一 个 独立 函数 sqab， 上 层 函 数 调用 N 次 ， 每 次 计算 1 个 数组 元 素 ，C 版 请 看 例 5.1 和 例 5.2，Fotttan 
版 本 请 看 例 5.3 和 例 5. 


【 例 5.1】sqab_cl.c。 


1 #include «math.h» 
2 float sqab(float a) 
3 { 
4 
5 


return sqrtf (fabsf(a)); 


} 


【 例 5.2】sqabN_cl.c。 


1 #include<stdio.h> 
2 #define N 100 


3 float sqab(float); 

4 int main() 

5 { 

6 float x[N]; 

7 int idx; 

8 for (idx = 0; idx < N; idx++t) 

9 x[idx] = sgqab(1.0f* (idxt+1)); 
10  printf("x[2]2-$f Wn", x[2]); 
11 return 0; 

12 } 


例 5.2 中 ，x[2] 对 应 初始 值 是 3， 第 10 行 输出 元 素 x[2] 的 计算 值 ， 用 以 检验 正确 性 。 


【 例 5.3】sqab_f1.f90。 


1 function sqab (a) 
2 implicit none 
3 real sqab 
4 
5 
6 


real,intent(in)::a 
sqab = sqrt (abs (a) ) 
end function 


(155.4) sqabN. f1.£90, 


program main 

implicit none 

real, external::sqab 
integer,parameter::N-100 
integer :: idx 

real x(N) 


do idx = 1, N 

x(idx) = sqab (idx*1.0) 
enddo 
print*, "x(3) =", x(3) 
endprogram 


例 5.4 中 ， 数 组 x 的 第 3 个 元 素 对 应 初始 值 是 3， 第 11 行 输出 x (3) 的 计算 值 。Fotrtran 语 言 的 内 置 函 数 abs (…) 和 sqtt (…) X AERE A, XX OEGECUEGRAE LA TP Aroutine Fis, KABA. 


编译 、 运 行 结果 显示 第 3 个 元 素 的 值 均 为 1.732051， 对 应 ， 程 序 正确 。 


5.1 routine $E 
routine 导 语 告诉 编译 器 ， 将 给 定 的 过 程 编译 得 既 能 在 主机 上 运行 ， 又 能 在 加 速 器 上 运行 。 在 一 个 带 有 过 程 调 用 的 文件 或 例 程 中 ， 当 调用 过 程 时 ，routine 导 语 将 这 个 被 调用 过 程 的 属性 告诉 编译 器 。 
C 和 和 C++ 中 ，routine 导 语 的 语法 是 : 


#pragma acc routine 子 语 列表 ”换行 
#pragma acc routine (名 字 ) 子 语 列表 ”换行 


c 和 C++ 中 ， 不 带 名 字 的 routine 导 语 可 以 出 现在 一 个 函数 定义 的 紧邻 上 方 ， 或 出 现在 一 个 国 数 原型 的 上 方 ， 它 作用 于 紧 跟 着 的 函数 或 原型 。 在 允许 函数 原型 出 现 的 任何 地 方 ， 都 可 以 出 现 带 名 字 的 
routine 导 语 ， 该 导语 应 用 于 作用 域内 具有 指定 名 字 的 函数 ， 但 它 必 须 出 现在 任何 函数 定义 或 函数 使 用 的 前 面 。 


Fortran 中 ，routine 导 语 的 语法 是 : 


!$acc routine 子 语 列表 
!$acc routine (名 字 ) 子 语 列表 


Fortran 中 ， 不 带 名 字 的 routine 导 语 可 以 出 现在 一 个 子 例 程 或 函数 内 的 参数 说 明 区 域 ， 或 者 接口 块 之 内 的 子 例 程 和 函数 的 接口 体 之 内 ， 并 应 用 于 包含 的 子 例 程 和 函数 。 带 有 名 字 的 routine 导 语 可 以 出 现 
在 函数 、 子 例 程 和 模块 的 参数 说 明 区 域 ， 并 作用 于 该 名 字 指 定 的 子 例 程 或 亢 数 。 


带 有 routine 导 语 且 为 一 个 加 速 器 编译 的 C/C++ 镶 数 或 Fortran 子 程序 称 为 加 速 器 例 程 。 


routine 导 语 上 的 子 语 是 下 列 之 一 : 


gang 

worker 

vector 

seq 

bind C£ 5x) 

bind (4$) 

device type (设备 类 型 列表 ) 
nohost 


5.2 seq-dfi& (Chk) 


sed 子 语 指 明 ， 这 个 过 程 不 包含 也 不 调用 另 一 个 包含 gang、worker 或 vector 子 语 的 循环 的 过 程 。 这 个 过 程 里 ， 带 auto 子 语 的 循环 将 以 seq 模 式 执 行 。 可 以 在 任何 模式 中 调用 这 个 过 程 。 每 个 设备 类 型 只 
能 指定 gang、worker、vector、seq 当 中 的 一 个 。 

例 5.2 第 8~9 行 for 循 环 和 例 5.4 第 8~10 行 计算 次 数 最 多 ， 为 将 它们 转移 到 设备 上 ， 需 要 告诉 编译 器 为 消 数 sqab (C...) 编译 一 份 可 在 设备 上 运行 的 代码 (图 5.1) ， 用 routine 导 语 改造 一 下 ， 得 到 例 5.5 和 
例 5.6。 


图 5.1 设备 上 的 并 行 线程 调用 函数 过 程 


【 例 5.5】sqab_c2.c。 


#include <math.h> 
#pragma acc routine seq 
float sqab(float a) 


{ 
return sqrtf(fabsf(a)); 


} 


【 例 5.6】sqabN_c2.c。 


#include<stdio.h> 
#define N 100 

#pragma acc routine seq 
float sgab (float); 

int main () 


{ 


float x[N]; 
int idx; 
#pragma acc parallel loop pcopyout (x[0:N]) 
for (idx = 0; idx < N; idx++) 

x[idx] = sqab(1.0f*(idx*1)); 

printf ("x[2]=Sf\n", x[2]); 

return 0; 

} 


BWNHEFOCDYAUKRWNE 


PIS SAYER QT eid ERR ER V RAISER DAT, seqmARKRR ESEEBPVCTVAEEBAC, jit SC ies BRIBE FIRES: 


sgab: 
4, Generating acc routine seq 
Generating Tesla code 


5.6155 347 Bd ERR ER B ROWAN, DORK EA, ISIS. WRISTS, SESE ES 117 EBSESZXSqabZ7oZ CES E3517. 
尽管 实际 上 sqab 有 设备 代码 ， 但 编译 器 在 编译 例 5.6 时 无 法 知道 : 
9, Accelerator region ignored 


10, Accelerator restriction: function/procedure calls are not supported 
11, Accelerator restriction: unsupported call to 'sqab' 


由 正确 和 错误 例子 推断 ， 一 个 带 routine 导 语 的 代码 顺利 编译 需要 满足 两 个 条 件 : 
函数 或 子 例 程 在 定义 的 地 方 添加 了 合适 的 导语 ， 能 够 顺序 编译 。 


- 在 调用 这 些 函 数 或 子 例 程 的 地 方 告诉 编译 器 它们 能 在 设备 代码 区 域内 调用 。 


5.3 seq 子 语 (Fortranhk) 


Fortran 语 言 中 使 用 routine 导 语 稍微 喝 嗪 点 ， 需 要 将 被 调用 函数 的 定义 放 在 模块 里 面 或 者 接口 里 面 。 先 演示 在 模块 中 定义 设备 例 程 ， 请 看 代码 例 5.7 和 例 5.8。 


(155.7) sqab_f2.f90. 


1 module tseqm 
2 contains 

3 real function sqab (a) 
4 !$Sacc routine seq 
5 real,intent(in):: a 
6 

7 

8 


sqab = sqrt (abs (a)) 
end function 
end module 


跟 C/C++ 中 将 routine 导 语 放 在 函数 头顶 上 不 同 ，Fortran 中 将 routine 导 语 放 在 国 数 体 的 声明 区 ， 这 与 将 形 参 说 明 放 在 函数 体内 的 声明 区 保持 一 致 。 将 routine 导 语 放 在 函数 头顶 ， 即 将 3、4 行 对 调 ， 编 
译 器 会 报错 ; routine 导 放 在 声明 区 之 外 ， 例 如 将 第 4 行 移 到 第 6 行 之 后 ， 编 译 器 也 会 报错 。 


[45/5.8] sqabN. £2.£90, 


1 program main 

use tseqm 

implicit none 

integer, parameter::N-100 
integer :: idx 

real x(N) 


do idx = 1, N 

x(idx) = sqab (idx*1.0) 
enddo 
print*, "x(3) =", x(3) 


2 
3 
5 
6 
7 
8 !$acc parallel loop pcopyout (x(1:N)) 
9 
0 
1 
2 
3 endprogram 


按照 “定义 处 编译 ， 主 调处 告知 ”的 要 求 ， 例 5.8 中 应 该 有 相应 的 routine 语 句 告诉 编译 器 被 调 函数 sqab 的 相关 信息 ， 但 实际 上 却 没有 这 样 的 代码 ， 有 点 奇怪 。 不 用 奇怪 ， 第 2 行 引 入 了 模块 tteqm， 编 译 
器 能 从 这 个 模块 里 取得 想 要 的 信息 。 


下 面 演示 用 接口 说 明 设 备 例 程 。 


设想 一 个 场景 : 大 量 的 函数 或 子 例 程 已 经 写 好 并 已 通过 测试 ， 这 个 时 候 再 用 OpenACC 改 造 ， 改 动 越 少 出 错 的 几率 越 小 。 如 果 将 函数 定义 全 部 搬 进 模块 里 ， 并 在 主 调 代码 里 添加 use modulexxx 语 句 ， 
改动 较 大 。 想 要 遂 数 定义 代码 里 修改 少 ， 主 调 代 码 里 就 要 修改 多 一 些 。 具 体 做 法 见 例 5.9 和 例 5.10。 


【 例 5.9】sqab_f3.f90。 


1 real function sqab (a) 
2 !$acc routine seq 
3 real,intent(in):: a 
4 
5 


sqab = sqrt (abs (a)) 
end function 


[455.10] sqabN. £3.£90, 


program main 
implicit none 
interface 
real function sqab (a) 
!$acc routine seq 
real, intent(in) :: a 


1 

2 

3 

4 

5 

6 

7 end function 

8 end interface 

9 integer, parameter: :N=100 
10 integer :: idx 
11 

2 

3 

4 

5 

6 

7 

8 


real x(N) 


!Sacc parallel loop pcopyout (x(1:N)) 
do idx = 1, N 
x (idx) = sqab (idx*1.0) 
enddo 
print*, "x(3) =", x(3) 
endprogram 


例 5.9 中 的 函数 定义 只 添加 了 1 行 代码 (58217) , PEN). (BSNS GIS. Ont IRARO (3~8 行 ) 。 接 口中 包含 了 编译 器 可 能 需要 的 所 有 信息 ， 整 体 编译 或 者 分 离 编译 都 顺利 : 


S pgf90 -ace -Mini 
$ pgf90 -acc -Mini 
$ pgf90 -acc -Min 
$ pgf90 -acc -Minf 


-o sqabN f3.exe sqab f3.f90 sqabN f3.f90 # 整 体 
-c sqab f3.f90 B $2 BRE 
-c sqabN f3.f90 
-o sqabN f3.exe sqab f3.ob]j sqabN f3.ob] 


> Fh Fh Eh 


OOOO 


无 论 是 将 函数 定义 放 入 模块 中 ， 还 是 用 接口 来 声明 函数 ， 添 加 的 代码 都 挺 多 。 试 想 一 下 ， 如 果 有 100 个 函数 要 改造 ,仅仅 这 些 辅助 代码 就 是 一 个 大 负担 。 那 么 问题 来 了 ， 有 没有 简便 的 方法 呢 ， 必 须 有 
啊 ， 绝 招 往往 在 后 头 。 


54 routine (名 字 ) 


按照 正常 步骤 ， 串 行 代码 编写 完成 测试 无 误 后 才 会 进行 并 行 化 。 在 代码 较 长 时 ， 为 了 某 处 的 函数 调用 而 跑 到 声明 区 域 修改 代码 不 方便 ， 一 段 时 间 以 后 再 次 查看 时 无 法 就 丘 了 解 到 被 调 函数 的 声明 情况 。 


实际 上 ，C/C++ 中 导语 : 

#pragma acc routine (£T) 子 语 列表 PAT 

和 Fortran 中 导语 : 

!Sacc routine (名 字 ) 子 语 列表 

不 是 必须 摆 放 在 国 数 原型 声明 区 域 ， 而 是 可 以 放 在 函数 原型 声明 之 后 的 任意 地 方 。 该 导语 告诉 编译 器 将 在 设备 区 域 调 用 的 函数 名 字 ， 如 例 ?.11 和 例 5.12 中 的 两 种 用 法 都 能 通过 编译 。 
【 例 5.11】sqabN_c3.c。 


float x[N]; 
7 #pragma acc routine(sqab) seq 
8 int idx; 


9 #pragma acc parallel loop pcopyout (x[0:N]) 
10 for (idx = 0; idx < N; idxt+) 
11 x[idx] = sqab(1.0f*(idx*1)); 


[455.12] sqabN_c4.co 


8 #pragma acc parallel loop pcopyout (x[0:N]) 
9 for (idx = 0; idx < N; idx++) 

10 
1 


x[idx] = sqab(1.0f* (idx4*1)); 
#pragma acc routine(sqab) seq 


例 5.11 第 7 行 的 导语 在 sqab 被 调用 前 通知 编译 器 “这 个 函数 可 以 在 设备 区 域 串 行 调用 ”。 例 5.12 第 11 行 中 的 导语 在 函数 调用 之 后 才 声 明 ， 竟 然 也 不 报错 ?实际 上 ， 所 有 预 编 译 代码 全 部 处 理 完成 之 后 才 
会 编译 那个 for 循 环 。 编 译 第 10 行 时 ， 编 译 器 已 经 知道 函数 sqab (…) 的 routine 导 语 声 明 情 况 啦 。 


对 Fortran 而 言 ，routine (名 字 ) 导语 最 节省 代码 量 ( 例 5.13) : 


[455.13] sqabN_f4.f90. 


1 program main 

2 implicit none 

3 real, external :: sqab 

4 !$acc routine(sqab) seq 

5 integer, parameter::N-100 
6 integer :: idx 

7 real x(N) 

8 

9 !$acc parallel loop pcopyout (x(1:N)) 
LO do idx = 1, N 

L1 x (idx) = sqab (idx*1.0) 
|2 enddo 

L3 print*, "x(3) =", x(3) 

L4 endprogram 


例 5.13 中 ， 第 3 行 是 常规 的 外 部 函数 声明 ， 第 4 行 点 名 声明 sqab 的 设备 函数 属性 。 实 际 上 第 4 行 可 放 人 在 声明 区 域 中 的 任意 一 行 ， 相 当 灵 活 。 例 5.13 和 例 5.9 配 合 ， 声 明 上 函数 属性 一 共 只 添加 2 行 代码 。 


5.5 ”bind 子 语 


在 某 些 情形 下 ， 同 一 个 算法 ,但 在 主机 上 和 设备 上 的 实现 方法 不 一 样 ， 简 单 添加 导语 的 办 法 不 可 行 ， 或 者 性 能 较 低 。 此 时 就 该 bind 子 语 出 场 了 ， 它 的 语法 是 : 


bind 子 语 指定 编译 或 调用 这 个 过 程 时 使 用 的 名 字 。 如 果 这 个 名 字 被 指定 为 标识 符 ， 它 将 被 当做 语言 本 身 的 名 字 来 编译 和 调用 。 如 果 这 个 名 字 被 指定 为 字符 串 ， 这 个 字符 将 被 用 作 这 个 过 程 的 名 字 。 


该 子 语 的 使 用 频率 较 低 ， 示 例 代码 请 参考 OpenACC 官 网 。 


5.6 ”用 子 语 指定 并 行 级 别 


前 面 的 加 速 器 例 程 都 是 串 行 执行 ， 其 实 它们 也 可 以 并 行 执行 。 三 种 并 行 级 别 对 应 gang、worker、vector 3 个 子 语 : 
1) gang 子 语 指 明 ， 本 过 程 可 以 包含 、 调 用 另 一 个 过 程 ， 内 层 过 程 里 包含 一 个 带 gang 子 语 的 循环 。 调 用 本 过 程 的 代码 必须 以 gang 元 余 模式 执行 ， 并 且 所 有 的 gang 都 必须 执行 这 个 过 程 。 例 如 ， 带 有 一 


个 gang 子 语 的 循环 里 面 不 能 调用 一 个 带 有 routine gang 导 语 的 过 程 。 每 个 设备 类 型 只 能 指定 gang、worker、vector、seq 当 中 的 一 个 。 


2) worker 子 语 指 明 ， 本 过 程 可 以 包含 、 调 用 另 一 个 过 程 ， 内 层 过 程 里 包含 一 个 带 worker 子 语 的 循环 ， 但 不 能 包含 或 调用 具有 gang 子 语 的 循环 的 过 程 。 这 个 过 程 里 面 带 有 auto 子 语 的 循环 ， 究 竟 是 以 
worker 模 式 执行 还 是 以 vector 模 式 执行 ， 可 以 由 编译 器 来 选择 决定 。 调 用 这 个 过 程 的 代码 必须 以 worker 单 独 模式 执行 ， 尽 管 它 可 以 在 gang 宛 余 或 gang 分 裂 模式 之 中 。 例 如 ， 带 有 一 个 gang 子 语 的 循环 里 
面 可 以 调用 一 个 带 有 routine worker 导 语 的 过 程 ， 但 带 有 一 个 worker 子 语 的 循环 里 面 不 可 以 调用 一 个 带 有 routine worker 导 语 的 过 程 。 每 个 设备 类 型 只 能 指定 gang、worker、vector、seq 当 中 的 一 个 。 


3) vector 子 语 指 明 ， 本 过 程 可 以 包含 、 调 用 另 一 个 过 程 ， 内 层 过 程 里 包含 一 个 带 Vector 子 语 的 循环 ， 但 不 能 包含 或 调用 具有 gang 或 worker 子 语 的 循环 的 过 程 。 对 这 个 过 程 里 带 有 auto 子 语 的 循环 ， 编 
译 器 可 以 选择 以 vector 模 式 执 行 ， 但 不 能 以 worker 模 式 执行 。 调 用 这 个 过 程 的 代码 必须 以 vector 单 独 模式 执行 ， 尽 管 它 可 以 在 gang 宛 余 或 gang 分 裂 模 式 之 中 ， 也 可 以 在 worker 单 独 模式 或 worker 分 裂 模 
式 之 中 。 例 如 ， 带 有 一 个 gang 或 vector 子 语 的 循环 里 面 可 以 调用 一 个 带 有 routine vector 导 语 的 过 程 ， 但 带 有 vector 子 语 的 循环 不 能 调用 。 每 个 设备 类 型 只 能 指定 gang、worker、vector、seq 当 中 的 一 


个 


[`o 


为 说 明 三 种 并 行 级 别 ， 计 算 一 个 矩阵 所 有 元 素 的 绝对 值 根 : 对 任意 对 定 的 正 整数 M，N， HRE: 


X1.1 e XLM 
: m . x SA, ISISN 


X N.1 eee XNM 


中 每 个 元 素 的 绝对 值 根 ， 得 到 : 


J| e [Xu 


: u^ . jer, ESES] 


JIXwa| ee IX. 


适当 改造 本 章 的 代码 ， 使 函数 sqab 一 次 计算 1 行 (C/C++) 或 1 列 (Fortran) 和 矩阵 元 素 的 绝对 值 根 ， 上 层 主 调 函 数 对 列 或 行 循环 。 


2 


5.7 ”计算 圆周 率 Tr 


并 行 计算 的 教材 爱 拿 的 计算 方法 来 举例 ， 这 里 笔者 也 凑 个 热闹 。 注 意 ， 这 里 的 例子 只 是 说 明 并 行 化 方法 ， 并 不 能 将 的 精度 算 到 小 数 点 后 成 干 上 万 位 。 


计算 值 的 一 个 公式 是 : 


一 dx 一 tan (x)|o=tan (1)—tan (0)— tan ^(1)—— 
o l+x € ii n (U)—tan (=F 


St (x) 24/ (1+X2) , "TEL 从 而 得 到 数值 计算 公式 : 
N ! | 
| | | - 
AT r EF | 
| | | | | 
AL a. E | i FE 
对 应 的 物理 意义 是 ， 将 函数 f (x) 在 区 间 [0，1] 上 的 面积 近似 地 看 作 N 个 矩形 的 面积 和 。 将 区 间 [0，1] 平 均 剖 分 为 N 个 小 区 间 ， 以 小 区 间 中 点 处 的 函数 值 作为 矩形 的 高 。 随 着 N 的 增 大， 矩形 面积 和 (级 


数 ) 快速 远近 的 精确 值 。 图 5.2 中 的 N 值 为 10。 


id 


i 


A5.2 4EJE d dfe LEA 3 2X ff. 


串 行 计算 的 代码 ( 例 5.18~ 例 5.21) 相当 简单 ， 


[455.18] & c1.c. 


BwWNE 
m] 
0} 
ct 
G 
H 
=] 
S 
e 
mS 
ran 
e 


f+x*x) ) 7 


[45|5.19] & _f1.f90。 


后 面 会 以 此 为 基础 用 OpenACC 改 写 。 


Function fx(x) 
real(kind-8), intent(in):: x 
real(kind-8) fx 

fx = 4.0/(1.0+x*x) 

end function 


OP WNHE 


例 5.18 和 例 5.19 中 的 函数 fx (float x) 和 fx (x) 对 应 公式 中 的 f (x) 


[415.20] pi_cl.co 


=4/ (1+x?) , 


#define N 100 
#include<stdio.h> 


Float x); 


PI = 3.141592653589793238; 
h, X, mypi, sumfx; 
Of . 


0; i < N; itt) 


x = h*(i-0.5); 
sumfx += fx(x); 


XO CO —1 Oy O1 4S C) P2 F2 CO «(O0 00 1 Oy O1 iS CO PO ES 
: 


X; 
printf("N = $dWMn", N); 
printf("mypi = $fNn", mypi); 
printf ("diff = $fWMn", mypi - PI); 
20 return 0; 


N 
mn 
—— 


[455.21] pi £1.80, 


1 program main 
2 implicit none 


3 integer N, i 

4 real(kind-8) h, x, mypi, sumfx, PI 
5 real(kind-8), external::fx 
6  character(len-20) arg 

7 PI = 3.141592653589793238 

8 N= 100 

9 h-1.0/N 
10 sumfx = 0.0 
11 do i = 1, N 
12 x = h* (1-0.5) 
13 sumfx = sumfx + fx(x) 
14 enddo 
15  mypi = h*sumfx 
16 print*, 'n =', N 
17  print*, "mypi ="; mypi 
18 print*, "diff =", mypi = PI 
19 end program 


例 5.18~ 例 5.21 中 的 常数 3.141592653589793238 是 的 19 位 有 效 数 字 准确 值 ， 


从 编译 、 运 行 结果 可 知 代码 正确 : 


$ pgcc -o pi cl.exe 
$ ./pi cl.exe 


fx cl.c pi cl.c 


N = 100 
mypi = 3.161499 
diff = 0.019907 ”// 近 似 值 与 准确 值 的 误差 


使 用 本 章 介绍 的 导语 改写 例 5.18~ 例 5.21， 得 到 并 行 代码 例 5.22~ 例 5.25， 所 用 导语 很 简单 ， 不 再 袭 述 。 


[455.22] fx c2.c (对 应 例 5.18 fx_cl.c) o 


变量 sumfx 对 应 


> f(ü—0.5)N) 


i 


1 


，mypi 对 应 的 近似 人 


i 
r4 f((i—0.5y/N) 
“i=l o 


1 #pragma acc routine seq 
2 float fx(float x) 

3 4 
4 

5 


return (4.0f/(1.0f+x*x)); 


} 


[455.23] & £2.50 (对 应 例 5.19 fx f1.00) 。 


Function fx(x) 
!$acc routine seq 
real(kind-8), intent(in):: x 
real(kind-8) fx 

fx = 4.0/(1.0+x*x) 

end function 


OAU BUNE 


[415.24] pi c2.c (在 例 5.20 pi_cl.c 基 础 上 修改 ) 。 


#pragma acc routine seq 
Float fx(float a); 


{ 
x — h*(i-0.5); 
sumfx += 


FX (X) ; 


4 

5 
12 
L3 for(int i = 0; i < N; i++) 
14 

5 

6 

7 


} 


#pragma acc parallel loop reduction (+:sumf 


[455.25] pi £2.50 (对 应 例 5.21pi fl.f90) 。 


program main 
implicit none 
interface 


1 
2 
3 
4 real (kind=8) function fx (x) 
5 !$acc routine seq 
6 real (kind=8), intent(in) :: x 
7 end function 
8 end interface 
9 integer N, i 
10 
1 
2 
3 
4 
5 
6 
7 
8 


real (kind=8) h, x, mypi, sumfx, PI 
!real(kind-8), external::fx 
character(len-20) arg 

PI = 3.141592653589793238 


N = 100 
h = 1.0/N 
Sumfx = 0.0 
!Sacc parallel loop reduction (+:sumfx) 
do i = 1, N 
9 x = h*(i-0.5) 
20 sumfx = sumfx + fx(x) 
21L enddo 


26 end program 


第 6 草 ”高 级 特性 


一 台 带 有 加 速 器 的 服务 器 ， 有 两 种 计算 资源 : CPU 和 加 速 器 。 按 照 CPU 一 加 速 器 一 CPU 的 串 行 执行 顺序 ， 在 某 一 时 刻 ， 要 么 CPU 在 工作 ， 要 么 加 速 器 在 工作 ， 不 能 同时 工作 ， 资 源 浪 费 。 有 些 计算 专用 的 
加 速 器 ， 核 心 数 很 多 ， 单 个 设备 内 核 有 可 能 不 能 完全 利用 其 计算 资源 ， 多 个 内 核 同 时 运行 利用 率 会 更 高 。 更 进一步 ， 加 速 器 上 的 数据 复制 引擎 和 计算 核心 通常 也 不 会 同时 工作 ， 无 法 充分 发 挥 设备 的 洪 力 。 
为 了 降低 成 本 ， 服 务 器 上 一 般 安 装 多 个 加 速 器 ， 每 次 只 用 1 个 加 速 器 计算 ， 显 然 不 合适 。 


本 章 使 用 异步 操作 来 实现 主机 与 设备 之 间 的 并 行 计算 、 多 个 异步 队列 同时 执行 、 同 一 个 设备 上 的 数据 传输 与 计算 的 重合 ， 用 OpenMP 多 线程 来 实现 多 个 设备 的 同时 工作 。 


6.1 异步 操作 


OpenACC 用 异步 队列 来 管理 不 同 的 任务 ， 主 机 代码 将 计算 、 传 输 等 操作 分 发 到 各 个 队列 之 后 ， 不 等 操作 执行 完成 就 返回 ， 继 续 向 下 执行 。 各 个 队列 再 将 操作 发 送 到 加 速 器 上 执行 ， 参 见 图 6.1。 同 一 个 
队列 里 的 操作 按压 入 的 先后 顺序 执行 ， 不 同 队列 中 的 操作 之 间 的 相对 顺序 不 确定 ， 从 而 有 可 能 重 革 计算 与 传输 ， 减 少 一 些 运 行 时 间 。 
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图 6.1 异步 队列 的 建立 与 执行 


关于 异步 队列 和 异步 执行 的 工具 有 async 子 语 、wait 子 语 和 wait 导 语 ， 用 来 控制 那些 使 用 异步 数据 移动 和 异步 计算 构件 的 程序 的 行为 。 


6.2 ”设备 计算 与 主机 计算 重 填 


结合 例 6.1 和 例 6.2 看 看 如 何 实现 主机 与 设备 同时 工作 。 例 6.1 第 5 行 定义 的 N 是 数组 长 度 ， 第 6~ 7 行为 3 个 数组 分 配 内 存 。 第 10~ 14 行 在 设备 上 为 数组 a 赋 值 ， 赋 值 M 次 只 是 为 了 使 用 运行 时 间 长 一 些 ， 画 像 
里 更 明显 。 第 16~18 行 在 主机 上 为 数组 b 赋 值 ， 同 样 赋 值 M 次 。 第 19 行 把 设备 上 的 数组 a 复 制 到 主机 上 ， 接 着 第 22~23 行 在 用 主机 上 的 数组 a 和 b 计 算得 到 数组 <。 第 24 行 更 新 数组 a 的 设备 副本 ， 其 实 无 实际 
意义 ， 只 是 为 了 在 画像 上 标示 出 结束 时 间 点 。 上 述 执行 顺序 是 设备 一 主机 一 数据 传输 一 主机 。 为 了 使 主机 与 设备 同时 执行 ， 将 第 10、12、19 行 上 添加 子 语 async， 例 6.1 实 际 运行 时 ， 设 备 和 主机 就 有 一 些 重 
=, DI Eg6.2, 


[516.1] asct.c: EMHRAE EAM. 


1 #include<stdio.h> 
2 #include<stdlib.h> 
3 int main() 


N = 10240000, M = 200; 

*a, *b, *c; 

(int*)malloc (sizeof (int)* 

(int*)malloc (sizeof (int)* 

(int*)malloc (sizeof (int)* 

#pragma acc enter data create 

for(int j=l; j«2M; j++) 
#pragma acc parallel loop async 

for(int i=0; i<N; i++) 

ali] =(i+j)/2; 


w 
| gw dg» ctc 


for(int je1; j<=M; j++) 
for(int i20; i<N; i++) 

b[i] =(i+j)/3; 
#pragma acc update host (a[0:N]) async 


«O00 10 01.» CO NO r2 OO 1000 NOCOU i 


20 #pragma acc wait 

21. 

22 for(int i-0; i<N; i++) 

23 c[i] = a[i]+b[i]; 

24 #pragma acc update device (a[0:N]) 

29 #pragma acc exit data delete (a[0:N]) 


26 printf("c[1] = Sd\n",c[1] ); 


27 free (a); 
28 free (b); 
29 free (c); 
30 return 0; 
31 } 


[456.2] asf1.f90: EMSRS SMF. 


program main 

implicit none 

integer, parameter:: N = 10240000, M = 200 
integer, allocatable:: a(:),b(:),c(:) 
integer i,j 


ta create(a(1:N)) async 
do j=1,M 
!$acc parallel loop async 
do i-1,N 
a(i) = (i+j)/2 
enddo 
enddo 


do j=1,M 

1 do i =1,N 

20 b(i) = (i*j)/3 
21 enddo 

22 enddo 
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24 '!Sacc update host(a(1:N)) async 
25  !$acc wait 

26 do i-1,N 

21 c(i) = a(i)*b(i) 

28 enddo 

29 !$acc exit data delete (a (1:N)) 
30 print*, "c(1)-2",c(1) 
31 deallocate (a,b,c) 

32 endprogram 


例 6.1 添 加 async 子 语 后 的 程序 运行 方式 如 下 : 主机 将 第 10~ 14 行 对 应 的 内 核 提 交 给 默认 队列 ， 立 即 返 回 ， 然 后 执行 第 16~18 行 的 代码 。 第 19 行 Update 导语 上 必须 添加 async 子 语 ， 人 否则 ， 立 即 进行 数据 
传输 ， 有 可 能 将 未 完成 赋值 的 数组 a 复 制 到 主机 上 ， 引 发 错误 。 第 20 行 的 wait 导 语 让 程序 在 此 等 待 ， 直 到 所 有 异步 队列 中 的 所 有 操作 均 已 完成 。 


为 了 实测 主机 计算 与 设备 计算 的 重 芍 效果， 将 例 6.1 中 的 async 子 语 全 部 去 掉 ， 表 去 掉 第 20 行 上 的 wait 导 语 ， 得 到 例 6.3。 例 6.3 和 例 6.1 的 运行 模式 对 比 见 图 6.2， 果 然 重 蔷 掉 一 部 分 时 间 。 例 6.4 也 有 相同 
WEBER. 


(56.3) asc2.c: 主机 与 设备 串 行 执行 (在 例 6.1 ascl.c hah ERE). 


0 #pragma acc enter data create (a[0:N]) 
9 #pragma acc update host (a[0:N]) 
0 


[4516.4] as£2.00: 主机 与 设备 重 受 执行 (在 例 6.2 asf1.90 的 基础 上 修改 ) 。 


10 !S$acc enter data create(a(1:N)) async 


12 !$acc parallel loop async 
24 lS$acc update host(a(1:N)) async 
25 


例 6.1 画 像 图 6.3 中 的 设备 计算 部 分 占用 约 2.5 秒 ， 设 备 计算 之 后 直到 D2H 传 输 之 前 的 时 间 在 执行 主机 计算 。 因 为 画像 工具 nvvp 不 能 监测 主机 的 运行 数据 ， 所 以 显示 为 空白 ， 整 体 运行 时 间 约 为 4 秒 。 例 6.3 
画像 图 6.4 是 设备 计算 与 主机 计算 串 行 执行 的 画像 ， 其 中 设备 计算 时 间 不 变 ， 仍 为 约 2.5 秒 ， 但 主机 计算 时 间 拉 长 ， 整 体 运 行 时 间 约 为 5.5 秒 ， 比 重 区 执行 多 出 1 秒 。 这 说 明 重 区 效果 显著 。 


主机 与 设备 交错 运行 


主机 与 设备 重合 运行 : 计算 a 与 b 时 


—| Process "asc1.exe" (3347) 
=| Thread 168068928 
L Driver API 
L Profiling Overhead 
=] [0] GeForce GT 420M 
[=] Context 1 (CUDA) 
LY MemCpy (HtoD) 
LY MemCpy (DtoH) 
一 Compute 


L- Y 100.0% main_16_... 


Streams 
- Stream 13 


— Stream 14 


=] Process "asc2.exe" (3402) 


=] Thread 1673893696 
- Driver API 
- Profiling Overhead 
(=| [0] GeForce GT 420M 
=| Context 1 (CUDA) 
LY MemCpy (HtoD) 
L SF MemCpy (DtoH) 
=| Compute 


- Sf 100.0% main. 16 ... 


=| Streams 
— Stream 13 


6.3 ”设备 上 同时 执行 多 个 队列 


图 6.2 异步 队列 能 够 重 又 主机 和 设备 上 的 计算 任务 


图 6.3 npnvvp 画 像 ， 主 机 计算 与 设备 计算 相互 重合 ， 对 应 例 6.1 
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图 6.4 nvvp 和 画像， 主机 计算 与 设备 计算 顺序 执行 ,无 重合 ,对 应 例 6.3 


本 章 开头 提 到 过 ， 有 些 设备 运算 能 力 强 大 ， 例 如 英 伟 达 Tesla KBO CPU 拥有 高 达 4992 个 核心 。 而 计算 构件 中 使 用 的 并 行 线程 可 能 不 够 多 ， 用 不 完 这 么 多 核心 。 如 果 能 使 两 个 或 两 个 以 上 的 计算 构件 同时 


运行 在 设备 上 ， 利 用 率 也 许 会 有 提高 。 


具体 做 法 还 是 使 用 async 子 语 ， 见 例 6.5 和 例 6.6。 例 6.5 中 ， 将 第 10~14 行 上 的 数组 a 的 创建 操作 和 计算 操作 均 压 入 异步 队列 1， 将 第 16~20 行 上 的 数组 b 的 创建 操作 和 计算 操作 均 压 入 队列 20。 这 里 的 队列 


编号 1 和 20 可 以 随意 指定 ， 不 必 按 照 1，2，3，.… 之 类 的 顺序 指定 ， 只 要 不 相互 冲突 就 好 。 


第 21 行 为 数组 c 分 配 设备 空间 ， 然 后 在 第 24~26 行 用 数组 a 和 b 来 更 新 数组 c<。 为 了 保证 数组 c 的 正确 性 ， 要 求 此 前 数组 a 和 b 的 计算 已 经 结束 。 在 到 达 第 24 行 之 前 ， 数 组 b 肯 定 计 算 结 束 ， 这 是 因为 它 的 计 
算 操作 和 数组 c 的 计算 操作 都 在 异步 队列 20 之 中 ， 并 且 排 在 数组 之前， 同一 队列 中 按 入 列 的 先后 顺序 执行 。 但 是 数组 a 的 计算 操作 在 异步 队列 1 中 ， 在 执行 第 24 行 之 前 就 不 一 定 能 计算 结束 了 。 怎么 办 呢 ? 让 
异步 队列 20 等 一 等 吧 。 这 就 是 关键 的 第 22 行 ，wait (1) async (20) 含义 是 把 等 待 操作 压 入 异步 队列 20， 在 此 等 待 异步 队列 1 中 已 有 操作 的 完成 。 


注意 ， 程 序 员 要 自行 保证 同时 执行 的 操作 之 间 没 有 相互 依赖 关系。 例 6.5 中 对 数组 a 的 赋值 和 对 数组 b 的 赋值 相互 无 天 ， 可 以 同时 执行 。 
第 28 行 上 的 wait 导 语 没有 指定 异步 队列 的 编号 ， 等 待 所 有 队列 ,然后 在 第 29 行 删除 数组 a、b、c 的 设备 副本 。 


【 例 6.5】asc3.c: 多 个 异步 队列 在 设备 上 并 发 执行 。 


1 #include<stdio.h> 
2 #include<stdlib.h> 
3 int main() 
4 4 
5 int N = 10240000, M = 200; 
6 int. *a, *b, *c; 
7 a = (int*)malloc (sizeof (int) *N) ; 
8 b = (int*)malloc (sizeof (int) *N) ; 
9 c = (int*)malloc (sizeof (int) *N) ; 
10 #pragma acc enter data create(a[0:N]) async(1) 
11 for(int j=l; j«2M; j++) 
12 #pragma acc parallel loop async(1) 
13 for(int i20; i«N; i++) 
14 ali] =(it4)/2; 
15 
16 #pragma acc enter data create(b[0:N]) async (20) 
17 for(int j=l; j«2M; j++) 
18 #pragma acc parallel loop async (20) 
19 for(int i20; i«N; i++) 
20 b[i] =(i+j)/3; 
21 #pragma acc enter data create (c[0:N]) async (20) 
22 #pragma acc wait (1) async (20) 
23 
24 #pragma acc parallel loop async (20) 
25 for(int i=0; i<N; i++) 
26 c[i] = a[i]+b[i]; 
27 #pragma acc update host(c[0:N]) async(20) 
28 #pragma acc wait 
29 #pragma acc exit data delete(a[0:N], b[0:N],c[0:N]) 


30 printf("c[1] = Sd\n",c[1] ); 


31 free (a); 
32 free (b); 
33 free (c); 
34 return 0; 
35 } 


[4516.6] asf3.f90: 多 个 异步 队列 在 设备 上 并 发 执行 。 


program main 

implicit none 

integer, parameter:: N = 10240000, M = 200 
integer, allocatable:: a(:),b(:),c(:) 
integer i,j 


allocate (a (N) ) 
allocate (b (N) ) 
allocate (c (N)) 
!$acc enter data create(a(1:N)) async(1) 
do j=1,M 
!$acc parallel loop async(1) 
do i-1,N 
a(i) = (i+j)/2 
enddo 
enddo 


!$acc enter data create (b(1:N)) async (20) 
do j=1,M 

20 !$acc parallel loop async (20) 

21 do i =1,N 
22 b(i) = (i+j)/3 
23 enddo 

24  enddo 
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26 3!$acc enter data create(c(1:N)) async(20) 
27  !$acc wait(1) async(20) 


29 !$acc parallel loop async (20) 
30 do i= 1,N 
31 c(i) = a(i)*b(i) 

32 enddo 

33 !Sacc update host (c(1:N)) async (20) 
34 !Sacc wait 
35 !Sacc exit data delete (a(1:N),b(1:N) , c (1:N)) 
36 print*, "c(1)-2",c(1) 
37 deallocate (a,b,c) 

38 endprogram 


代码 准备 就 绪 ， 在 笔记 本 电脑 上 跑 一 下 ， 画 像 如 图 6.5 所 示 ， 立 刻 傻眼 了 : 两 个 异步 队列 (Stream 14/15) 没有 并 行 执行 ， 还 是 串 行 执行 ! 什么 原因 呢 ? 


异步 队列 不 仅 需 要 软件 支持 ， 还 需要 设备 支持 。 图 6.5 是 在 老 旧 的 GeForce GT 420M 显 卡 上 运行 ， 用 PGI 编 译 器 自 带 命令 pgaccelinfo 查 看 ( 详 见 3.4.1 节 ) 可 知 该 显卡 只 有 1 个 异步 引擎 : 


Async Engines: 1 


当然 无 法 同时 执行 两 个 异步 队列 。 


回 Process "asc3.exe" (3976) 
—| Thread 2945939264 
C Driver API 
L Profiling Overhead 
=| [0] GeForce GT 420M 
Ez Context 1 (CUDA) 


cuEventSynchronize 


- SY MemCpv (HtoD) 


ima a ea a a NC WU 
= Compute TURAE 
-Y 50.0% main 15 c..  [IMNNINNAINIALIRAIAILITALLREALUAALL LAU 


L Y 49.8% main 21 g.. | TETTE 


LY 0.396 main 27 gpu 
=| Streams 


- Stream 14 ag I TTT UT 


- Stream 15 


图 6.5 nvvpi&j4&, AAI BE EiE43 4516.5, JLOEAT AUR. 


换 一 个 较 新 的 计算 显卡 Tesla K20m， 它 有 2 个 异步 引擎 


=: 


Async Engines: 2 
人 允许 两 个 异步 队列 同时 执行 ， 画 像 如 图 6.6 所 示 ， 两 个 队列 确实 同时 执行 。 


0.255 
[=] Process "asc3.exe" (7259) 
=] Thread 940586144 
- Driver API cuDevicePrimaryCtxRetain cuStreamSynchr... cuDeviceP... 
- Profiling Overhead SS I | | — aw Mm | 证 MEE 
=| [0] Tesla K20m 
f Context 1 (CUDA) 
LY MemCpy (DtoH) 


站 | | 


-Y 51.0%main_18_opu Sz 


LY 0.6% main 24 gpu 
=] Streams 
— Stream 14 


- Stream 15 | TCS 


图 6.6 hnvvp 画 像 ， 在 较 新 的 计算 专用 显卡 上 运行 例 6.5，2 个 队列 并 行 执行 


6.4” 重 到 计算 与 效 据 传 输 


前 面 各 章节 已 经 反复 提 到 ， 一 个 OpenAC(C 程 序 的 典型 运行 过 程 是 这 样 的 : 从 主机 向 设备 复制 数据 (H2D, HostToDevice) ， 接 着 调用 内 核 进行 计算 ， 最 后 从 设备 向 主机 复制 数据 
(D2H, DeviceToHost) 。 对 两 个 相互 独立 的 任务 ， 它 们 的 运行 过 程 通常 是 串 行 的 ， 如 图 6.7 所 示 。 


H2D 计算 D2H 


图 6.7 两 个 相互 独立 的 任务 串 行 执行 


数据 传输 与 计算 操作 分 别 由 不 同 的 硬件 单元 执行 ， 如 果 能 让 这 些 硬件 单元 同时 工作 ， 就 可 能 提高 效率 ， 缩 短 整 个 程序 的 运行 时 间 。 一 个 理想 的 方案 如 图 6.8 所 示 ， 前 一 个 任务 的 H2D 传 输 完成 立即 开始 后 
一 个 任务 的 H2D 传 输 。 后 一 个 任务 的 H2D 传 输 与 计算 之 间 有 一 个 等 待 ， 这 是 因为 计算 资源 还 在 被 前 一 个 任务 占用 ， 后 一 个 任务 只 能 等 待 。 需 要 特别 指出 ， 图 6.8 摘 绘 的 只 有 较 常 见 的 情形 : 主机 与 设备 之 间 只 


有 1 个 传输 通道 ， 一 个 任务 独占 计算 资源 ， 计 算 时 间 比 每 块 传输 时 间 长 。 实 际 上 ， 本 节 写 作 时 (2016 年 6 月 ) 的 主流 通用 计算 GPU 都 有 2 个 传输 通道 ， 计 算 资源 也 可 以 被 多 个 任务 同时 使 用 。 开 发 应 用 程序 
时 ， 请 根据 应 用 的 特点 和 所 用 设备 的 特性 灵活 调整 。 
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图 6.8 ”两 个 任务 重合 计算 与 数据 传输 
用 计算 Julia 分 形 图 案 的 例子 来 演示 async 子 语 的 实用 用 法 。 


法 国 数学 家 Gaston Julia 发 现 了 在 数论 中 有 名 的 Julia 集 ，Julia 集 图 案 绚丽 多 姿 。Julia 集 描述 如 下 : 在 复 平 面 上 ， 水 平 的 轴线 代表 实数 ， 垂 直 的 轴线 代表 虚数 。 每 个 Julia 集 合 (有 无 限 多 个 点 ) 都 决定 于 


一 个 复数 C， 对 复 平 面 上 的 任意 一 个 点 Z， 代 入 下 面 方程 中 进行 反复 迭代 运算 
| | 
I 


迭代 的 结果 可 能 发 散 趋 向 于 无 穷 ， 也 可 能 一 直 有 界 。 如 果 Z 的 模 大 于 2， 那 么 必定 发 散 。 可 以 用 模 第 一 次 大 于 2 的 迭代 次 数 来 标记 一 个 复数 的 发 散 速 度 。 将 复 平 面 原点 附近 的 复数 的 发 散 速 度 绘制 出 来 就 
得 到 漂亮 的 Julia 分 形 图 案 ， 例 如 图 6.9 就 是 一 个 ， 不 同 的 常数 C 对 应 不 同 的 图 案 。 


图 6.9 ”C=-0.835-0.2321i 时 的 Julia 分 形 图 案 (AAY) 


6.5 ”双向 传输 


异步 队列 既然 能 够 隐藏 设备 到 主机 的 数据 传输 ， 那 么 是 否 能 够 同时 隐藏 主机 到 设备 的 数据 传输 呢 ? 答案 是 肯定 的 ， 但 对 硬件 功能 有 依赖 。 这 里 测试 一 下 ， 为 Julia 分 形 添加 一 些 原本 不 必要 的 主机 到 设备 
传输 ， 即 例 6.18 的 第 24~ 25 行 和 例 6.19 的 第 ?2~ 53 行 ， 把 这 次 数据 传输 也 加 入 异步 队列 ， 看 看 会 有 什么 效果 。 


【 例 6.18】juliac5.c: 添加 主机 到 设备 传输 (在 例 6.16 juliac4.c 的 基础 上 修改 ) 。 


16 #pragma acc data create (image[0:N*N]) 

17 { 

18 int numblocks = 4; 

19 int blocksize - N/numblocks*N; 

20 for(int block = 0; block < numblocks; block++) 


22 int istart = block * (N/numblocks); 

23 int iend = istart + N/numblocks; 

24 #pragma acc update device (image[block*blocksize:blocksize]) \ 
25 async (block) 

26 #pragma acc kernels loop independent async (block) 

27 for(int i = istart; i < iend; i++) 

28 for(int j = 0; j < N; j++) 

29 image[i*N+j] = julia(cre,cim,i*h-2.0f, 

30 }*h-2.0£,maxIter) ; 

31 #pragma acc update host (image [block*blocksize:blocksize]) \ 
32 async (block) 

33 } 

34 #pragma acc wait 

35 } 


(156.19) juliaf5.f90: 添加 主机 到 设备 传输 (在 例 6.17 juliaf4.f90 基 础 上 修改 ) 。 


47 !Sacc data create (image) 
48  numblocks = 4 

49 do block = 0, numblocks-1 
50 istart = block* (N/numblocks) +1 
51 iend = istart + N/numblocks -1 


52 !$acc update device (image(1:N,istart:iend)) & 
53 !$acc async (block) 
54 !$acc kernels async (block) 


55 do j = istart, iend 
56 do i = 1, N 


5T image (i,j) =julia(cre,cim,i*h-2.0,j*h-2.0,maxIter) 
58 enddo 

59 enddo 

60 !Sacc end kernels 

61 !$acc update host(image(1:N,istart:iend)) & 

62 !$acc async (block) 

63  enddo 


64 !Sacc wait 
65  !$acc end data 


从 画像 图 6.17 中 可 以 清楚 地 看 到 每 个 异步 队列 里 有 2 次 传输 ，1 次 主机 到 设备 ，1 次 设备 到 主机 ， 分 别 位 于 计算 的 前 后 。 但 是 ， 计 算 与 传输 没有 任何 重 者 ， 等 同 于 串 行 执行 。 什 么 原因 呢 ? 设备 只 有 1 个 复 
制 引 擎 ， 忙 不 过 来 。 图 6.17 的 右 下 角 明 确 显 示 “Memcpy Engines 1”， 只 有 1 个 内 存 复 制 引 擎 ， 该 引擎 负责 主机 内 存 与 设备 内 存 之 的 数据 传输 。 因 为 只 有 1 个 复制 引擎 ， 所 以 在 执行 第 0 块 (Stream 14) 设 
备 到 主机 传输 的 时 候 ， 它 不 能 同时 执行 第 1 块 (Stream 15) 的 主机 到 设备 传输 ， 第 1 块 所 在 队列 只 能 等 待 。 


0s 
=] Process "juliac5pin.exe" (4011) 
户 Thread 3617064768 
- Driver API cuMemHost...| cuStrea.. cuStreamSyn... cuStreamSyn... 
- Profiling Overhead | | | 
m [0] GeForce GT 420M 
=| Context 1 (CUDA) 
LY MemCpy (HtoD) 
_ Y MemCpy (DtoH) 
=| Compute 
LY 100.0% main_28_... 
=] Streams 
— Stream 14 
L Stream 15 
- Stream 16 
- Stream 17 


= ð € Properties 2 


[0] GeForce GT 420M 
Results PONTO : 
Global Memory Bandwidth | 25.6 GB/s 
1. CUDA Appl Global Memory Size |! 1,020.688 MiB 
Thequkled anal Constant Memory Size | 64 KiB 
through the var L2 Cache Size | 128 KiB 


you understand : 
opportunities in Memcpy Engines 


图 6.17 juliac5.c (446.18) 的 nvvp 画 像 ， 异 步 队 列 中 同时 拥有 H2D 和 D2H 传 输 


既然 1 个 复制 引擎 不 够 用 ， 那 么 2 个 复制 擎 够 用 吗 ? 答 案 还 是 肯定 的 ， 换 个 更 高 级 (更 贵 ) 的 设备 验证 一 下 。 为 了 使 重 老 效 果 更 明显 ， 将 数据 规模 设 定 得 更 大 一 些 ， 得 到 例 6.20 和 例 6.21。 画 像 图 6.18 的 
右 下 角 明 确 显 示 “Memcpy Engines 2”， 设 备 Tesla K20m 有 2 个 复制 引擎 。 流 14 的 D2H 传 输 和 流 15 的 H2D 传 输 同 时 进行 ， 相 互 重 玛 ， 显 然 是 两 个 复制 引擎 的 功劳 。 图 中 还 可 以 看 出 ， 不 能 同时 进行 两 个 
H2D 传 输 或 D2H 传 输 。 


【 例 6.20】juliac6.c: 扩大 计算 规模 (在 例 6.18 juliac5.c 基 础 上 修改 ) 。 


8 int N = 1024*16, maxIter = 128; 


【 例 6.21】juliaf6.f90: 扩大 计算 规模 (在 例 6.19 juliaf5.f90 基 础 上 修改 ) 。 


37 integer, parameter:: N = 1024*16, maxIter = 128; 


0 S 
(=| Process "juliac6pin.exe" (6629) 
|-| Thread 2092970464 
- Driver API cuDeviceP... 
L Profiling Overhead | | 


E [0] Tesla K20m 
=] Context 1 (CUDA) 
上 -可 MemCpy (HtoD) 
LY MemCpy (DtoH) 
=| Compute 
-Y 100.0% main 28 .. 
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- Stream 14 
- Stream 15 
- Stream 16 
- Stream 17 


Cai Anal & fa = CPU Cons Li | =] Properties 23 

[0] Tesla K20m 
GloDal Memory Banawratn | ZUB GB/S 
Global Memory Size |! 4.687 GiB 
Constant Memory Size | 64 KiB 
L2 Cache Size | 1.25 MiB 
Memcpy Engines * 


| 司 E > Results 


1. CUDA App! 


The guided ana 
through the var 


图 6.18 juliac6.c (4816.20) 的 nvvp 画 像 ， 两 个 引擎 同时 传输 数据 


66 ”多 个 设备 同时 运算 


需要 加 速 器 的 应 用 通常 计算 量 很 大 ， 在 一 台 服 务 器 安装 多 块 加 速 器 既 能 节约 投资 又 能 降低 编程 难度 。 无 论 安装 几 块 加 速 器 ， 服 务 器 的 CPU、 内 存 、 主 板 、 电 源 、 风 扇 等 成 本 几乎 是 一 样 的 。 如 果 应 用 需 
要 4 块 加 速 器 ， 那 么 对 配 有 4 块 加 速 器 的 服务 器 只 需要 1 台 ， 对 只 配 1 块 加 速 器 的 服务 器 就 需要 4 台 ， 跨 服务 器 编程 难度 要 比 单机 编程 难度 大 很 多 。 多 机 单 卡 、 多 机 多 卡 的 情形 本 书 不 涉及 ， 留 在 再 版 时 介绍 。 


第 7 章 ”与 GPU 生态 环境 互 操作 


英 伟 达 GPU 通 用 计算 已 经 有 一 个 成 熟 的 生态 环境 ,硬件 有 多 个 系列 多 种 型 号 的 GPU，nvcc 编 译 器 和 PGI 编 译 器 用 来 编译 原生 的 CUDA C/C++ 代码 、CUDA Forttan/ObenACC 代 码 ， 深 度 优 化 的 各 类 函数 
库 。 例 如 线性 代数 库 cuBLAS、 快 速 傅 里 叶 变 换 库 CUEFFT、 随 机 数 库 CURAND， 等 等 。 


开发 程序 总 是 想 投 入 最 少 产 出 最 多 ， 有 尽量 减 少 工作 量 。 考 虑 这 些 场景 : 用 OpenACC 移 植 已 有 的 代码 ， 在 某 些 十 分 紧要 的 部 分 布 望 发 挥 设 备 的 极致 性 能 ， 这 部 分 就 要 用 CUDA C 或 CUDA Forttran 来 编码 ; 
语言 编码 时 ， 有 些 代 码 对 性 能 要 求 不 高 但 又 比较 繁琐 ， 此 


开发 遇 到 某 此 常规 的 算法 ， 例 如 给 阵 乘 、 快 速 傅 里 叶 变 换 ， 自 己 重 复 编写 费时 费力 ， 索 性 使 用 现成 的 库 函 数 。 用 CUDA C 或 CUDA Forttan 这 样 的 低层 语言 
时 可 以 用 OpbenACC 快 速 并 行 化 。 因 此 OpbenACC 被 设计 得 可 以 和 其 他 语言 、 函 数 库 交 互 配合 。 

不 同 语言 之 间 的 配合 ， 需 要 解决 的 主要 问题 是 数据 传递 和 编译 链接 方式 。 

作为 准备 ， 先 介绍 2 个 运行 时 例 程 : acc_deviceptr4eacc_hostptr. 

acc_deviceptt 在 C 或 C++ 中 的 原型 : 

d void* acc deviceptr( h void* ); 


例 程 acc_deviceptt 返 回 与 一 个 主机 地 址 相关 联 的 设备 指针 。 参 数 是 一 个 主机 变量 或 数组 的 地 址 ， 这 个 变量 或 数组 在 当前 设备 上 有 一 个 活动 生存 期 。 如 果 数 据 不 存在 于 设备 上 ， 本 例 程 的 返回 值 为 NULL。 
acc_hostptt 在 C 或 C++ 中 的 原型 : 


h void* acc hostptr( d void* ); 


例 程 acc_hostptt 返 回 一 个 设备 地 址 相关 联 的 主机 指针 。 参 数 是 一 个 设备 变量 或 数组 的 地 址 ， 例 如 acc_deviceptt、acc_cteate 或 acc_copyin 的 返回 地 址 。 如 果 设 备 地 址 是 NULL， 或 设备 地 址 不 对 应 任何 主机 地 


址 ， 那 么 本 例 程 的 返回 值 为 NULL。 


7.1 


OpenACC 调 用 CUDA C 


OpenACC 中 的 设备 数据 地 址 对 程序 员 是 不 可 见 的 ， 同 一 个 变量 名 ， 在 主机 上 运行 时 自动 指向 主机 内 存 地 址 ， 在 设备 上 运行 时 自动 指定 设备 内 存 地 址 。 而 CUDA C 代 码 中 调用 内 核 浮 数 时 ， 必 须 显 式 地 指 
定 设备 变量 的 地 址 。 为 解决 这 个 数据 传递 障碍 ，OpenACC 特 别 设计 了 host_data 构 件 和 use_device 子 语 。 


host_data 构 件 使 设备 上 数据 的 地 址 在 主机 上 可 用 。 


C 和 C++ 中 ，host data 导 语 的 语法 是 : 


#pragma acc host data 子 语 列表 ”换行 
结构 化 块 


Fortran}, host data 导 语 的 语法 是 : 


!Sacc host da 


结构 化 块 


!$acc end host data 


ta 子 语 列表 


这 里 只 有 一 个 可 用 的 子 语 : 


use device( 


变量 列表 


) 


Use_device 子 语 告诉 编译 器 ， 对 变量 列表 中 的 任何 变量 或 数组 ， 在 构件 内 的 代码 里 使 用 它们 的 设备 地 址 。use_device 子 语 还 可 以 用 来 传递 变量 或 数组 的 设备 地 址 ， 以 优化 那些 用 低层 接口 编写 的 例 程 。 
变量 列表 里 的 变量 或 数组 必须 已 经 人 存在 于 加 速 器 内 存 中 ， 这 可 以 用 数据 区 域 或 数据 生存 期 包含 本 构件 来 实现 。 在 共享 内 存 加 速 上 上， 设备 地 址 可 能 与 主机 地 址 相同 。 


use_device 子 语 中 


int x, y[128]; 


fpragma host 
fpragma hos 


. da 
t da 


4l 
HB 


# 使 用 变量 名 或 数组 名 ， 不 能 使 用 子 数 组 名 字 ， 否 则 编译 时 会 报告 语法 错误 。 原 因 很 容易 理解 ， 这 个 子 语 是 要 取出 数组 名 关联 的 设备 地 址 ， 数 组 设备 副本 的 首 地 址 。 只 需要 数组 名 
字 就 能 找到 对 应 地 址 了 ， 不 需要 指定 数据 元 素 的 范围 : 


ta use device (x, y) 
ta use device(y[1:2]) 


// 正 确 用 法 
// 错 误 用 法 ， 编 译 时 报告 语法 错误 


用 例 7.1 和 例 7.2 直 观 说 明 host_data 导 语 的 语法 和 应 用 场景 。 


[57.1] cucsaxpy.cu: 向 量 乘 加 CUDA CHA. 


| global void 
saxpy kernel (int n, 


{ 


int t 


Tf 


yl 


} 


extern "C" void saxpy(int n, 


{ 


tid] 


tid = blockDim.x * block] 
(tid < n) 
+= a*x[tid]; 


float a, 


Float *x, 


float *y) 


[dx.x + threadIdx.x; 


dim3 griddim, blockdim; 


blockdim = dim3(128,1,1); 


float a, 


float *x, 


float *y) 


griddim = dim3((ntblockdim.x-1) /blockdim.x, 1,1); 
saxpy kernel«««griddim,blockdim >>>(n, a, x, y); 


例 7.1 中 先 定义 一 个 CUDA 内 核 函 数 saxpy_kernel， 功 能 是 将 两 个 数组 对 应 元 素 乘 加 yi = axxi+ yi; 再 定义 一 个 C 函 数 saxpy， 功 能 是 封装 内 核 函数 saxpy_kernel， 以 便 被 OpenACC 代 码 调用 。CUDA 
C 内 核 函 数 的 定义 和 调用 方法 超出 本 书 范围 ， 此 处 不 展开 介绍 。 


【 例 7.2】oacudac.c: OpenACC 调 用 CUDA CA H £& Jc 


1 #include<stdio.h> 
2 #include<stdlib.h> 
3 extern void saxpy(int, float, float*, float*); 
4 int main() 
5 4 
6 float *x, *y, tmp; 
7 int N = 1024; 
8 x = (float*)malloc (sizeof (float) *N) ; 
9 y = (float*)malloc (sizeof (float) *N) ; 
10 #pragma acc data create(x[0:N]) copyout (y[0:N]) 
11 { 
12 #pragma acc kernels 
13 #pragma acc loop independent 
14 for(int i = 0; i < N; i++) 
I5 { 
16 x[i] = 1.0f; 
17 yli] = 0.0f; 
18 } 
19 #pragma acc host data use device (x, y) 
20 saxpy(N, 2.0, x, y); 
21 } 
22 printf ("y[0]=S£\n", y[0]); 
23 free (x); 
24 free (y); 
25 return 0; 
26 ] 


例 7.2 是 OpenACC 人 代码， 第 8~9 行 由 OpenACC 分 配 主机 内 存 。 第 10~21 行 是 data 导 语 创建 的 数据 区 域 ， 在 此 区 域内 ， 数 组 x 和 y 均 有 对 应 的 设备 副本 ， 第 12~18 行 的 计算 构件 对 设备 副本 赋值 。 但 是 ， 
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指向 设备 地 址 还 是 主机 地 址 是 由 运行 


时 自动 决定 的 ， 不 能 显 式 地 取出 x 和 y 的 设备 地 址 。 第 20 行 调用 的 saxpy 是 一 个 封装 过 的 CUDA C 函 数 ， 要 求 输出 设备 指针 地 址 。 此 时 ， 第 19 行 的 


host_data 导 语 告诉 运行 时 ， 让 关联 构件 〈 即 第 20 行 ) 中 的 指针 x 和 y 一 律 指向 设备 地 址 ， 从 而 saxpy 得 到 了 想 要 的 设备 地 址 ， 正 确 运 行 。 


注意 ， 使 用 host_data 导 语 的 时 候 ， 程 序 员 必 须 保证 指定 的 变量 确实 有 对 应 的 设备 副本 ， 否 则 出 错 。 


pgcec -acc -c oacudac.c 
nvcc -c cucsaxpy.cu 
-ta-nvidia:rdc -Mcuda -o oacudac.exe oacudac.o cucsaxpy.o 


pgcc 


OpenACC 代 码 和 CUDA C 代 码 分 别 用 pgcc 和 nvcc 编 译 ， 不 能 渴 用 ， 这 也 要 求 不 要 将 不 同 语言 的 代码 放 在 同一 个 文件 中 。 连 接 得 到 oacudac.exe 的 时 候 必须 添加 选项 -ta= nvidia: rdc， 这 是 因为 采用 了 


分 离 编译 ; 也 必须 添加 选项 -Mcuda， 这 是 因为 要 和 CUDA 交 互 。 


7.2 OpenACC 调 用 CUDA Fortran 


Fortran 语 言 编写 的 OpenACC 代 码 里 调用 CUDA Fortran 内 核 就 简单 多 了 ， 不 必 使 用 host_data 之 类 的 导语 来 显 式 传递 内 存 地 址 ， 跟 调用 普通 Fortran 子 例 程 一 模 一 样 ， 请 看 例 7.3 和 例 7.4。 


【 例 7.3】oacudaf.f90: OpenACC 调 用 CUDA Frotran 内 核 。 


program main 
use saxpy mod 
implicit none 
integer,parameter:: n = 1024 
real x(n), y(n) 
x(:) = 1.0 
y(:) = 0.0 
'Sacc data copy(y) copyin (x) 
!$acc parallel 
!Sacc end parallel 
call saxpy (n,2.0,x, y) 
!$acc end data 
print*, "y(1) = ", y(1) 
endprogram 
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例 7.3 中 定义 两 数组 x 和 y 并 赋 初 值 。 第 8~ 12 行 是 data 构 件 建 立 的 数据 区 域 ， 第 9~ 10 行 的 parallel 构 件 是 为 规避 编译 器 漏洞 ， 不 做 实际 计算 。 第 11 行 调用 Fortran 子 例 程 saxpy， 该 例 程 封装 着 一 个 CUDA 
Fortran 内 核 。 


【 例 7.4】 cufsaxpy.£90: 向 量 乘 加 CUDA Fortran 内 核 。 


module saxpy mod 
contains 
attributes (global) & 
subroutine saxpy kernel(n, a, x, y) 
implicit none © 
integer, value,intent(in) :: n 
real, value, intent(in):: a 
real x(:),y(:) 
integer i 
i = threadIdx%x + (blockIdx%x-1) *blockDim%x 
if (i<=n) y(i) = y(i) + a*x(i) 
end subroutine 
subroutine saxpy(n, a, x, y) 
use cudafor 
implicit none 
real, device:: x(:),y(:) 
real :: a 
integer:: n 
19 call saxpy kernel««« (n*255)/256,256»»» (n,a,x, y) 
20 end subroutine 
21 end module 
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例 7.4 第 3~4 行 定义 了 CUDA Fortran 内 核 函 数 saxpy_ kernel, SWARRE. 131 EXhsaxpy A Fortran foe, CHAARKRAsaxpy kernel 以 便 用 常规 Fortran 语 法 调用 。 注 意 ， 
第 16 行 声明 形 参数 组 x (: ) 和 y (: ) 时 使 用 了 device 属 性 ， 因 此 例 7.3 中 第 11 行 调用 子 例 程 saxpy 时 自动 选择 数组 x 和 y 的 设备 地 址 做 为 实际 传 入 参数 。 完 全 不 必 使 用 host data 之 类 的 导语 ， 却 能 实现 相同 
的 功能 。 


pgfortran -Mcuda -c cufsaxpy.f90 
pgfortran -acc -Minfo -c oacudaf.f90 
9, Accelerator kernel generated 
Generating Tesla code 
pgfortran -acc -Minfo -Mcuda -o oacudaf.exe oacudaf.o cufsaxpy.o 


因为 是 CUDA Fortran 代 码 ， 所 以 编译 cufsaxpy.f90 时 需要 添加 选项 -Mcuda， 如 果 将 文件 名 改 为 cufsaxpy.cuf， 编 译 器 会 自动 识别 为 CUDA Fortran， 不 用 手动 添加 选项 -Mcuda。 编 译 oacudaf.f90 


时 ， 编 译 器 为 占 位 parallel 构 件 生 成 一 个 内 核 。 链 接 的 时 候 一 定 要 添加 选项 -acc 和 -Mcuda， 这 是 因为 同时 用 到 了 OpenACC 和 CUDA Fortran, 


- 


$ ./oacudaf.exe 
9: compute region reached 1 time 
9: kernel launched 1 time 
grid: [1] block: [1] 
device time(us): total-9 max-5 min-4 avg=9 
elapsed time(us): total-474 max-474 min-474 avg-474 


运行 得 到 的 可 执行 程序 oacudaf.exe， 发 现 占 位 用 的 空 内 核 也 执行 了 ， 但 执行 时 间 非 常 短 。 如 果 去 掉 这 个 占 位 paralle| 构 件 ， 虽 然 输出 结果 正确 ， 但 是 会 报错 : 


y(1) = 2.000000 
Segmentation fault (core dumped) 


这 也 许 是 PGI 编 译 器 的 一 个 漏洞 ，16.3 版 本 仍然 没有 修复 ，16.5 版 本 已 经 修复 。 经 过 测试 ，OpenACC 数 据 区 域内 不 要 data 数 据 区 域 只 调用 CUDA Fortran 子 例 程 ， 在 此 之 前 先 调用 一 次 OpenACC 计 算 
构件 就 不 会 报错 了 。 


7.3 CUDA CC 调用 OpenACC 


CUDA C 代 码 中 调用 OpenACC 函 数 时 ， 由 CUDA C 分 配 设备 内 存 空间 ，OpenACC 直 接 使 用 。 关 键 问题 是 如 何 直接 将 设备 地 址 告诉 OpenACC 遂 数 ， 不 让 它 自己 再 次 分 配 。 这 就 用 到 了 deviceptr 子 语 。 


deviceptr 子 语 可 以 出 现在 结构 化 的 data 构 件 和 计算 构件 上 ， 也 能 出 现在 declare 导 语 上 。deviceptr 子 语 用 来 声明 变量 列表 中 的 指针 是 设备 指针 ， 因 此 不 必 再 为 该 指针 指向 的 数据 分 配 空间 ， 也 不 必 在 主 
机 与 设备 之 间 移 动 数据 。 


C 和 和 C++ 中 ， 变 量 列表 中 的 变量 必须 是 指针 。Fortran 中 ， 变 量 列 表 中 的 变量 必须 是 形式 参数 (数组 或 标量 ) ， 并 且 不 能 具有 Fortran pointer、allocatable 或 value 属 性 。 


对 一 个 共享 内 存 设 备 ， 主 机 指针 与 设备 指针 是 一 样 的 ， 因 此 这 个 子 语 不 起 作用 。 
具体 用 法 看 例 7.5 和 例 7.6。 


[457.5] cudacoacu: CUDA C 调 用 OpenACC 计 算 构件 。 


#include<stdio.h> 
extern "C" void saxpy (int, float, float*, float*) ; 
extern "C" void set (int, float, float*) ; 


int main () 


{ 


float *x, *y, y0; 
int n = 1024; 
cudaMalloc((void**)&x, sizeof(float)*n); 
lloc((void**)&y, sizeof(float)*n); 
set(n,1.0f, x); 
set(n,0.0f, y); 
saxpy (n, 2.0,x,y); 
cudaMemcpy (&y0, y, sizeof (float) , cudaMemcpyDeviceToHost) ; 
printf ("sf\n", y0); 
cudaFree (x) ; 
cudaFree (y) ; 
return 0; 


} 
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例 7.5 中 第 2 行 声明 的 函数 saxpy 执 行 向 量 乘 加 运算 ， 第 3 行 声 明 的 函数 set 为 向 量 设 定 初始 值 ， 这 两 个 函数 内 都 封装 了 OpenACC 计 算 构件 。 第 9~ 10 行 用 CUDA C 库 函数 为 数组 x 和 y 分 配 设备 内 存 空间 ， 第 
11~13 行 通过 调用 函数 set 和 saxpy 来 实现 设备 上 的 运算 。 第 14 行 用 CUDA C 库 函数 从 设备 内 人 存 复制 一 个 元 素 到 主机 变量 y0。 


特别 注意 ， 第 11~13 行 调用 函数 set 和 saxpy 时 ， 传 入 的 实 参 是 数组 x、y 的 设备 地 址 ， 这 两 个 浮 数 中 要 用 OpenACC 的 deviceptr 子 语 通 知 编译 器 一 下 。 


【 例 7.6】 oasaxpyc.c: OpenACC 实 现 向 量 乘 加 。 


void set(int n, float c, float *x) 


{ 


#pragma acc kernels deviceptr (x) 
for(int i-0; i<n; i++) 
x[i] = c; 


} 


void saxpy(int n, float a, float *restrict x, float *restrict y) 


#pragma acc kernels deviceptr (x, y) 
for(int i-0; i<n; i++) 
yli] += a*x[i]; 
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} 


例 7.6 中 ， 第 3 行使 用 子 语 deviceptr 声 明 指 针 x 已 经 指向 设备 地 址 了 ， 和 直接 使 用 就 可 以 了 ， 不 要 再 做 创建 设备 内 存 副 本 之 类 的 操作 。 第 10 行 上 的 效果 也 一 样 。 两 个 文件 分 别 用 nvcc 和 pgcc 编 译 ， 使 用 pgcc 
连接 ， 连 接 时 一 定 要 加 上 选项 -ta=nvidia: rdc-Mcuda。 


nvcc -c cudacoa.cu 
pgcc  -acc -c oasaxpyc.c 
pgcc -ta-nvidia:rdc -Mcuda -o cudacoa.exe cudacoa.o oasaxpyc.o 


74 捆绑 主机 地 址 与 设备 地 址 


使 用 deviceptr 子 语 虽 然 可 以 承接 CUDA C 分 配 的 设备 内 存 ， 但 每 次 都 要 十 分 小 心地 保证 实 参 是 设备 内 存 地 址 ， 十 分 麻烦 ， 一旦 误 传 成 主机 内 存 地 址 ， 就 会 有 运行 时 报错 。 而 OpenACC 的 内 存 管 理 机 制 
却 很 方便 : 在 计算 构件 内 自动 切换 为 设备 内 存 地 址 ， 执 行 主机 代码 时 再 切换 成 主机 内 存 地 址 ， 程 序 员 不 必 费 心 。 能 不 能 也 用 这 种 方法 管理 CUDA 分 配 的 设备 内 人 存 呢 ?答案 是 肯定 的 ， 这 就 要 用 到 运行 时 轩 


数 acc_map data 和 acc_unmap data, 
例 程 acc_ map _data 将 先前 分 配 的 设备 数据 映射 到 指定 的 主机 数据 。 


acc map _data 在 C 或 C++ 中 的 原型 : 


void acc map data( h void*, d void*, size t ); 


例 程 acc_map_data 与 带 有 一 个 create 子 语 的 enter data 导 语 相似 ， 但 它 不 是 通过 分 配 新 的 设备 空间 以 开启 一 个 数据 生存 期 ， 而 是 以 指定 的 设备 地 址 参数 开启 数据 生存 期 。 第 一 个 参数 是 主机 地 址 ， 后 面 
跟着 对 应 的 设备 地 址 和 以 字 节 计数 的 数据 长 度 。 调 用 这 个 遂 数 之 后 ， 主 机 数据 出 现在 一 个 数据 子 语 中 时 ， 将 会 替代 地 使 用 指定 的 设备 内 存 。 如 果 数 据 已 经 存在 于 设备 上 ， 为 主机 调用 acc_map_data 将 是 一 
个 错误 。 对 一 个 已 经 映射 到 主机 数据 的 设备 地 址 调用 acc_map_data， 调 用 后 果 未 定义 。 设 备 地 址 可 以 是 acc_malloc 的 调用 结果 ， 也 可 以 来 自 其 他 特定 设备 接口 例 程 。 


例 程 acc_unmap_data 解 除 从 指定 主机 数据 到 设备 数据 的 映射 关联 。 


acc unmap data 在 C 或 C++ 中 的 原型 : 


void acc unmap data( h void* ); 


例 程 acc_unmap_data 与 带 有 一 个 delete 子 语 的 exit data 导 语 相似 ， 除 了 不 撤销 设备 内 存 。 参 数 是 主机 数据 的 一 个 指针 。 调 用 本 例 程 会 终结 指定 主机 数据 的 数据 生存 期 。 设 备 内 存 不 会 被 撤销 。 除 非 主 
机 地 址 已 经 通过 acc_map_data 映 射 到 设备 地 址 ， 否 则 一 个 带 主机 地 址 参数 调用 acc_unmap_data 的 行为 未 定义 。 


简洁 地 说 ， 函 数 acc_map_data 将 一 个 主机 内 存 地 址 和 一 个 设备 内 存 地 址 绑 在 一 起 ， 在 主机 代码 和 OpenACC 计 算 构件 中 均 使 用 原来 的 主机 变量 名 ， 运 行 到 OpenACC 计 算 构件 时 自动 切换 为 设备 内 存 地 
HE, BiXacc unmap data 解 开 这 种 绑 定 关系 。 它 们 的 具体 用 法 见 例 7.7 和 例 7.8。 


[45]7.7] cuda map.cu: 用 捆绑 的 变量 调用 计算 构件 。 


#include <stdio.h> 
#include <stdlib.h> 


extern "C" void saxpy (int, float, float*, float*) ; 
extern "C" void set (int, float, float*) ; 
extern "C" void map(float*, float*, int); 


xs GREAT FP 


8 int main() 

9 { 
10 float *x, *y, *dx, *dy, y0; 
11 int n = 1024; 
12 
13 x = (float*)malloc(sizeof(float)*n); 
14 y = (float*)malloc (sizeof (float) *n) ; 
15 cudaMalloc ( (void**) &dx, sizeof (float) *n); 
16 cudaMalloc ( (void**) &dy, sizeof (float) xn) ; 
17 map (x, dx, n*sizeof (float) ); 

18 map (y, dy, n*sizeof (float) ); 

19 set (n,1.0f£,x); 
20 set (n,0.0f,y); 
21 saxpy(n, 2.0f, x, y); 
22 cudaMemcpy (&y0, dy, sizeof (float) , cudaMemcpyDeviceToHost) ; 
23 printf ("Sf\n", y0); 
24 return 0; 
25 } 


例 7.7 中 第 13~16 行 分 别 为 主机 数组 x、y 和 dx、dy 分 配 主 机 内 存 和 设备 内 存 。 第 17~18 行 调用 函数 map 将 x 与 dx 捆绑 ， 将 y 与 dy 捆绑 。 函 数 map 只 是 简单 封装 了 OpenACC 运 行 时 函数 acc_map_data 以 便 
能 在 CUDA 代码 中 调用 。 第 19 行 的 函数 set 设 定数 组 x 的 设备 副本 的 初始 值 ， 即 dx 的 初始 值 。 因 为 X 和 dx 已 经 捆绑 在 一 起 ， 而 函数 set 又 是 在 设备 上 运行 ， 所 以 编译 器 自动 将 函数 set 的 形 参 x 切 换 为 对 应 的 设 
备 内 存 地 址 dx。 第 21 行 调用 函数 saxpy 时 ， 实 参 x 和 y 的 地 址 也 会 自动 切换 。 


[417.8] oasaxpyc map.c: 地 址 捆绑 与 DOpenACC 向 量 乘 加 计算 构件 。 


#include<openacc.h> 
void map(float *restrict harr, float *restrict darr, int size) 


acc map data(harr, darr, size); 


void saxpy(int n, float a, float *restrict x, float *restrict y) 


#pragma acc kernels present (x, y) 
for(int i-0; i<n; i++) 
yli] += a*x[i]; 


void set(int n, float val, float *restrict arr) 
{ 

#pragma acc kernels present (arr) 
for(int i20; i<n; i++) 

arr[i] = val; 
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例 7.8 中 ， 第 2~4 行 上 的 函数 map 只 是 简单 地 封装 了 OpenACC 运 行 时 国 数 acc_map_data， 规 避 acc_map_data 只 能 在 OpenACC 代 码 中 调用 的 限制 。acc_map _data 的 原型 定义 在 头 文件 openacc.h 之 
中 。 第 8、14 行 上 的 子 语 换 成 present， 不 再 是 例 7.6 中 的 deviceptr 子 语 ， 不 必 再 检查 实 参 是 否 为 设备 内 存 地 址 ， 省 心 不 少 。 编 译 命令 如 下 : 


nvcc -c cuda map .cu 
pgcc -acc -c oasaxpyc map.c 
pgcc -acc -Mcuda -o cuda map.exe cuda map.o oasaxpyc map.o 


7.5 CUDA Fortran 调 用 OpenACC 


CUDA Fortran 中 调用 OpenACC 计 算 构件 相当 简单 ， 直 接 把 代码 添加 进去 就 可 以 了 ， 不 必用 普通 Fortran 子 例 程 封 装 ， 这 是 因为 CUDA Fortran 和 OpenACC 均 出 自 PGI 之 手 。 具 体 做 法 见 例 7.9。 


[457.9] cudafoa.f90: CUDA Fortran 混 合 OpenACC 构 件 。 


1 program main 

2 implicit none 

3 integer, parameter:: N = 1024 
4 real, device:: x(N), y(N) 

5 integer i 

6 real output 

T x(:) = 1.0 

8 y(:) = 0.0 

9 !$acc kernels deviceptr (x, y) 
10 y(:) = y(:) + 2.0*x(:) 
11 !$acc end kernels 
12 output = y(1) 
13 print*, "output = ", output 
14 end program 


例 7.9 中 ， 数 组 x 和 y 的 声明 带 有 属性 device， 编 译 器 只 为 它们 分 配 设备 内 存 空间 ， 生 存 期 直到 程序 结束 。 进 入 第 9 行 上 的 kernels 构 件 时 ， 只 需 用 deviceptr 子 语 告 诉 编译 器 数组 x 和 y 是 设备 上 数组 就 可 以 
d 


编译 链接 也 很 简单 ， 同 时 使 用 选项 -acc 和 -Mcuda 就 可 以 了 : 


pgfortran -acc -Mcuda -c cudafoa.f90 
pgfortran -acc -Mcuda -o cudafoa.exe cudafoa.o 


7.6 OpenACC (C) 调用 cuBLAS 


对 现成 函数 库 已 经 具备 的 功能 ， 不 必 自 己 编 写 ， 直 接 调 用 就 可 以 了 。cuBLASs 是 基本 线性 代数 库 BLAS (Basic Linear Algebra Subprograms) 的 CUDA CRS, &y&iEisei, AB Sask. E 
与 矩阵 运算 三 类 子 例 程 。 例 7.10 演 示 如 何 调用 cuBLAs 来 计算 向 量 乘 加 。 


【 例 7.10】oacublasc.c: OPpenACC 调 用 cuBLAS 库 函数 。 


#include<stdio.h> 

#include<stdlib.h> 

extern void cublasSaxpy (int, float, float*,int,float*,int) ; 
int main () 


{ 


float *x, *y; 
int n = 1024; 
x = (float*)malloc (sizeof (float) *n) 


y = (float*)malloc (sizeof (float) *n) 


F2 CQ Qo 00 «1 OY O1 ;S CO PO ES 


#pragma acc data create(x[0:n]) copyout(y[0:n]) 


#pragma acc kernels 
for(int i = 0; i < n; i++) 


x[i] = 1.0f; 
yli] = 0.0f; 
} 

9 #pragma acc host data use device (x, y) 
21 cublasSaxpy(n, 2.0f, x, 1, y, 1); 
22 } 

23 } 
24 printf ("y[1] = $fWn",y[1]); 


25 return 0; 
26 } 


第 3 行 声明 函数 cublasSaxpy 的 原型 ， 没 有 使 用 cuBLAS 头 文件 。cuBLAS 头 文件 及 详细 用 法 参见 https://developer.nvidia.comy/cublas。 第 19 行 上 的 host_ data use _device 导 语 使 编译 器 向 第 21 行 上 的 函 
数 cublasSaxpy 传 入 设备 内 存 地 址 。 编 译 时 只 需 选 项 -acc， 连 接 时 需要 同时 添加 选项 -acc<、-Mcuda、-lcublas， 其 中 -lcublas 是 为 了 将 cuBLAS 的 库 文 件 连 接 进来 : 


pace -acc -c oacublasc.c 
pace -acc -Mcuda -lcublas -o oacublasc.exe oacublasc.o 


7.7 OpenACC (Fortran) 调用 cuBLAS 


与 C 语 言 版 相 比 ， 仪 仪 是 编译 链接 有 少许 差别 ， 请 看 例 7.11。 


【 例 7.11】oacublasf £90: OpenACC 调 用 cuBLAS 库 函数 。 


program main 

use cublas 
integer, parameter:: n = 1024 
real x(n), y(n) 


y(1:2) = -1.0 


'Sacc data create (x, y) 

!Sacc kernels 

x(1) 1.0 

y(1) 0.0 

!Sacc end kernels 

!$acc host data use device (x, y) 

call cublassaxpy(n, 2.0, x, 1, y, 1) 
!$acc end host data 

!$acc update host(y(1)) 

!$acc end data 


print*, "y(1:2) =", y(1:2) 
endprogram 


C «Q000-10Y014» CO 2r C 1000 10S O1 iS CO PO ES 


WY ES Es Fs Es i 
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连接 时 需要 添加 选项 -ta=nvidia: rdc， 这 里 因 cublas 库 与 CUDA Fortra 的 内 存 管 理 是 相互 分 离 的 : 


pgfortran -acc -c oacublasf.f90 
pgfortran -acc -Mcuda -ta-nvidia:rdc -lcublas -o oacublasf.exe oacublasf.o 


第 8 草 ”运行 时 函数 


本 章 讲述 供 程序 员 使 用 的 OpenACC 运 行 时 库 例 程 。 在 不 支持 OpenACC 接 口 的 系统 上 使 用 这 些 例 程 可 能 会 影响 移植 性 。 利 用 预 处 理 宏 _OPENACC 进 行 条 件 编译 可 以 保持 移植 性 ， 具 体 做 法 参见 3.1 节 。 


C 运行 时 库 的 定义 
. 运行 时 库 例 程 
运行 时 库 例 程 分 为 4 种 类 型 : 
. 设备 管理 例 程 : 获取 设备 编号 、 设 定 当 前 设备 等 。 
异步 队列 管理 : 例如 ， 直 到 一 个 异步 队列 上 的 所 有 活动 都 完成 之 后 再 同步 。 
- 设备 测试 例 程 : 测试 这 个 语句 是 否 正在 设备 上 执行 。 


“ 数据 管理 和 内 存 管理 : 管理 内 存 分 配 或 在 内 存 之 间 复 制 数据 。 


8.1 运行 时 库 的 定义 


对 C 和 C++ 来 说 ， 本 章 讲述 的 运行 时 库 例 程 的 原型 保存 在 一 个 名 为 openacc.h 的 头 文件 中 。 所 有 的 库 例 程 都 是 用 “C” 连接 的 extern 函 数 。 这 个 文件 中 定义 : 
. 本 章 中 所 有 例 程 的 原型 。 
. 这 些 原型 中 使 用 的 所 有 数据 类 型 ， 包 括 一 个 描述 加 速 器 类 型 的 枚 举 类 型 。 


:acc_async_hoval、acc_async_sync 和 acc_async_default 的 值 。 


对 Fortran 来 说 ， 接 口 声明 都 保存 在 一 个 名 为 openacc 的 模块 中 。openacc 模 块 中 定义 : 
- 本 章 中 所 有 例 程 的 接口 。 
整数 参数 openacc_version， 参 数值 为 yyyymm， 其 中 yyyy 和 mm 分 别 是 年 份 和 月 份 ， 表 示 所 支持 的 加 速 器 编程 模型 的 版 本 。 这 个 值 与 预 处 理 宏 _OPENACC 的 值 相同 。 
“ 这 些 例 程 中 用 到 的 整数 类 型 的 长 度 。 
用 以 描述 加 速 器 类 型 的 整数 参数 。 
.acc_async_noval、acc_async_sync 和 acc_async_default 的 值 。 
编译 器 可 能 会 在 头 文件 中 添加 额外 的 定义 ， 例 如 PGI 编 译 器 就 添加 了 一 些 自行 定义 的 例 程 和 宏 。 


很 多 例 程 都 接受 或 返回 一 个 表示 加 速 器 设备 类 型 的 值 。 在 C 和 C++ 中 ， 表 示 设 备 类 型 值 的 数据 类 型 是 acc_device t; 在 Fortran 中 ， 这 个 数据 类 型 是 integer (kind=acc_device_kind) 。 具 体 用 什么 值 
表示 设备 类 型 由 编译 器 决定 。 在 C 和 C++ 中 ， 这 些 值 在 头 文件 openacc.h 中 列 出 ; 在 Fortran 中 ， 这 些 值 在 Fortran 包 含 文件 openacc lib.h 和 Fortran 模 块 openacc 中 列 出 。 所 有 的 编译 器 都 支持 4 个 值 : 
acc device none, acc device _default、acc_device_host 和 acc_device_not_host。 若 想 了 解 其 他 的 值 ， 请 查看 编译 器 包含 的 相应 文件 ， 或 者 阅读 编译 器 文档 。acc_device_default 不 会 是 任何 函数 的 返回 
值 ， 用 作 输 入 参数 时 ， 它 告诉 运行 时 库 使 用 编译 器 的 默认 设备 类 型 。 


注意 ，OpenACC 规 范 并 没有 规定 acc_async_noval 和 acc async _sync 的 值 是 什么 ， 不 同 的 编译 器 可 能 定义 不 同 的 值 。PGI 编 译 器 将 openacc version, acc async novalfllacc async _sync 定 义 为 整数 
常量 。 可 以 用 例 8.1 和 例 8.2 所 示 的 方法 查看 这 些 内 部 变量 的 值 。 


【 例 8.1】ec3 1 1.c: 输出 查看 acc async_noval 和 acc_async_sync 的 值 。 


#include<stdio.h> 
#ifdef OPENACC 
#include "openacc.h" 


fendif 
int main() 
{ 
#ifdef OPENACC 
printf ("acc async noval = %d\n", acc async noval); 
printf ("acc async sync = %d\n", acc async sync); 
#else 
printf ("OpenACC features are not supported or enabled.\n"); 
fendif 
return 0; 


} 


例 8.1 使 用 宏 OPENACC 进 行 条 件 编译 ， 编 译 环境 支持 OpenACC 特 性 时 ， 输 出 acc_async_noval 和 acc_async_sync 的 取 值 ; 编译 环境 不 支持 OpenACC 特 性 时 ， 不 调用 OpenACC 运 行 时 例 程 ， 避 免 编 译 
昔 误 ， 保 持 可 移植 性 。 使 用 支持 OpenACC 的 PG| 编 译 器 ， 打 开 选 项 -acc 编 译 、 运 行 ， 输 出 信息 如 下 : 


acc async noval 
acc async sync 
# 版 本 15.10 

acc async noval 
acc async sync 


[45]8.2] ef3 1 1.F90: #Aopenacc_version, pgi async novalfepgi async syncfj4. 


program test 
#ifdef | OPENACC 
use openacc 
fendif 
implicit none 
#ifdef OPENACC 


print*, "openacc version = ", openacc version 

print*, "acc async noval - ", acc async noval 

print*, "acc async sync =", acc async sync 
#else 

print*, "OpenACC features are not supported or enabled." 
#endif 
endprogram 


使 用 支持 OpenACC 的 PGI 15.10 编 译 器 ， 并 打开 选项 -acc， 编 译 、 运 行 例 8.2， 输 出 信息 如 下 : 


openacc version = 201306 
acc async noval = 0 
acc async sync = aL 


8.2 运行 时 库 例 程 


在 本 节 中 ， 对 C 和 C++ 原型 ， 指 针 类 型 h_ void* 和 d _void* 分 别 指向 一 个 主机 地 址 和 设备 地 址 ， 当 在 主机 上 执行 这 些 例 程 时 ， 就 像 包 含 了 下 列 定 义 一 样 : 


#define h void void 
#define d void void 


除了 acc_on_device， 这 些 例 程 只 能 在 主机 端 使 用 。 


本 节 列 出 OpenACC 2.5 所 规定 的 所 有 运行 时 例 程 的 原型 及 功能 。 


第 9 草 ” 开 友 环 境 搭建 


本 书 中 的 示例 代码 均 实 际 运 行 无 报错 ， 运 行 环境 包括 3 种 : Windows 7+PGI workstation 15.9/16.1/16.3、Ubuntu 14.04+PGI workstation with OpenACC 16.3 和 Red Hat Enterprise Linux 6.2+PGI workstation 


with OpenACC 16.3。 绝 大 部 分 示例 用 来 讲解 功能 和 语法 ， 运 行 在 Windows 环 境 下 ; 涉及 单 块 GPU 性 能 的 示例 运行 在 Ubuntu 上 ; 涉及 多 块 的 示例 运行 在 Red Hat Enterprise Linux 上 。 本 章 演 示 OpenACC 开 发 环境 
的 部 署 过 程 。 


从 PGI 官 网 www.pgroup.com 找 到 PGI Accelerator with OpenACC， 点 击 Try 下 载 试用 版 (图 9.1) 。 


PG! Accelerator " with OpenACC 


PG! Accelerator C99 & Fortran enable high level programming of HPC applications for 
x64+accelerators using OpenACC compiler directives. Portable, incremental, and easy to use 


for application domain experts. Try | Buy 


图 9.1 PGI 官 网 下 载 入 口 
可 以 选择 的 版 本 对 应 3 种 操作 系统 : Windows、Linux 和 Apple OS X。 每 个 版 本 都 需要 许可 文件 才能 正常 使 用 ， 见 图 9.2。 获 得 许可 文件 需要 在 PGI 官 网 上 注册 账号 ， 然 后 下 载 短 期 试用 许可 文件 〈 试 用 期 一 
个 月 ) 或 者 购买 长 期 使 用 许可 文件 。 许 可 文件 相关 操作 参见 www.epujisuan.com。 
Release 2016 


Product | PGI Accelerator Fortran/C/C++ Workstation 


Target | 64-bit only | | | | Download. 


Platform Windows 


! | Linux 
Package PTUS TUE 
Apple OS X 


图 9.2 ”PGI 编译 器 的 可 选 版 本 


PGI 编 译 器 的 部 署 需要 3 步 : 引导 安装 、 许 可 文件 激活 、 设 置 环境 变量 。 


91 Windows 7 


撰写 本 节 时 的 所 用 较 新 版 本 为 16.3， 最 新 版 本 在 Windows 7 上 部 署 时 有 些 问 题 ， 因 此 这 里 采用 版 本 15.10 来 说 明 部 署 过程 ， 其 他 版 本 的 部 署 方法 类 似 。 


双击 pgiws64-1510.exe 开 始 安装 ， 第 1 次 安装 时 会 要 求 先 安装 Windows SDK。 


安装 程序 报告 缺少 Windows SDK (图 9.3) ， 点 击 “ 否 ”暂停 安装 。 到 pgroup.com/support/microsoft-sdk 下 载 第 4 个 链接 (图 9.4) 。 


| " LE Go mE 
Prerequisite: Windows 8.1 SDK 


" product and it does not appear to be installed on this system. 


The Windows 8.1 SDK is freely available and can be downloaded 
here: 

pgroup.com/microsoft-sdk 
We recommend that you exit the installation of this PGI product 
now and install the Windows 8.1 SDK. You may continue, 
however, if you believe you are getting this message In error 


and the Windows 8.1 SDK is indeed installed. 


Do you want to continue this installation? 


图 9.3 ”报告 操作 系统 中 缺少 组 件 


PGI 2016 Workstation: 
Windows SDK for Windows 10 


PGI Visual Fortran 2016 for Microsoft Visual Studio 2015: 


Windows SDK for Windows 10 


PGI Visual Fortran 2016 for Microsoft Visual Studio 2013: 


Windows SDK for Windows 8.1 


Al PGI 2015 or PGI 2014 products: 
Windows SDK for Windows 8.1 


All PGI 2013 products: 


Windows SDK for Windows 8 


图 9.4 Windows SDK 下 载 地 址 


下 载 到 的 文件 是 sdksetup.exe， 双 击 运 行 ， 按 照 图 9.5~ 图 9.9 的 指示 即 可 顺利 完成 安装 。 


B Windows Software Development Kit for Windows 8.1 


Specify Location 


& Install the Windows Software Development Kit for Windows 8.1 to this computer 


Install Path: 


dAProgram Files (x86) Windows Kits\8.1\ 


© Download the Windows Software Development Kit for Windows 8.1 for installation on a separate 
computer 


Download Path: 


C:\Users\he\Downloads\Windows Kits\8.1\StandaloneSDK Browse... 


Estimated disk space required: 
Disk space available: 


B Windows Software Development Kit for Windows 8.1 


Join the Customer Experience Improvement Program (CEIP) 


The Customer Experience Improvement Program (CEIP) collects and sends anonymous usage data to 
Microsoft about how our customers use Microsoft programs and about some of the problems they 
encounter. Microsoft uses this information to improve the products and features. Participation in the 
program is voluntary, and the end results are software improvements to better meet the needs of our 
customers. No code or software produced by you will be collected. 


Tell me more about the program 


H96 选择 不 加 入 用 户 体验 改善 计划 


fp Windows Software Development Kit for Windows 8.1 


Select the features you want to install 


Click a feature name for more information. 


[V] windows Software Development Kit Windows Software Development Kit 
[V] Windows Performance Toolkit 


Debugging Tools for Windows Size: 869.6 MB 


[V] Application Verifier For Windows The Microsoft& Windows Software Development Kit 


R tK (SDK) for Windows 8.1 provides the tools, header files, 

NET Framework 451S — ( - and libraries needed to design, develop and debug 

[V] Windows Certification Kit both Windows 8.1 Windows Store apps and Windows 
App 


MSI Tools desktop applications. 
Includes: 


. Tools 
Headers 
Libraries 
Links to Samples 
Links to Documentation 


Estimated disk space required: 1.6 GB 
Disk space available: 20.6 GB 


Bak |È instan j| Came | 


图 9.7 全 选 组 件 ， 开 始 安 装 


fp Windows Software Development I Kit for Windows 8.1 


Installing features... 


Overall progress: 6% complete 


———— CORN cc 


Acquiring Windows Software Development Kit... 


图 9.8 ”安装 过 程 可 能 会 持续 几 分 钟 


ff Windows Software Development Kit for Windows 8.1 


Welcome to the Windows Software Development Kit for 
Windows 8.1! 


图 9.9 Windows SDK 安 装 完 成 


再 次 双击 pgiws64-1510.exe， 局 动 PGI 编 译 器 的 安装 过 程 ， 按 照 图 9.10~ 图 9.23 的 指示 一 步 步 操作 下 去 就 能 安装 成 功 。 


| PGI Workstation 15.10 


Welcome to PGI Workstation 15.10. 


You are installing PGI Workstation 15. 10 on your system. 


图 9.10 ”安装 引导 程序 启动 


PGI Workstation 15.10 


NVIDIA CUDA Toolkit 


NVIDIA's CUDA Toolkits are used by PGI's accelerator compilers and are induded with PGI 
products. If you prefer that the Toolkits not be installed, select the 'No' option below. 


C No, do not install the CUDA Toolkits. 


图 9.11 选择 安装 CUDA toolkits， 否 则 不 能 与 CUDA 代 码 交 互 


PGI Workstation 15.10 


AMD Software Installation 


The AMD ACML and PGI OpenACC compilers that support AMD GPUs are induded with PGI 
products. If you prefer that these components not be installed, select the No option 


(^O No, do not install AMD software. 


A912 ”选择 是 否 安装 AMD 的 软件 ， 不 选 也 没 影响 


Microsofts MPI implementation (MS-MPT) is induded with PGI products. If you prefer that 
MS-MPI not be installed, select the Mo option below. 


( ) Yes, install MS-MPI. 


图 9.13 ”选择 是 否 安装 MS-MPI， 本 书 中 用 不 到 
PGI Workstation 15.10 
| 


Customer Information 
Please enter your information. 


Please enter your name and the name of the company for which you work. 


User Name: 


he 


Company Name: 


A914 随意 填写 用 户 信息 


| PGI Workstation 15.10 © 


Choose Destination Location 
Select folder where setup will install files. 


The 64-bit versions of the PGI compilers and tools will be installed in the following folder. 


To install to this folder, dick Next. To install to a different folder, dick Browse and select 
another folder. 


Destination Folder 


d: Program Files \PGI 


| PGI Workstation 15.10 


Choose Destination Location 
Select folder where setup will install files. 


The 32-bit versions of the PGI compilers and tools will be installed in the following folder. 


To install to this folder, click Next. To install to a different folder, dick Browse and select 
another folder. 


Destination Folder 


d: Program Files (x86) PGI} 


Dm] a || 
= Ch = | 
Li is zii] eld 


图 9.16 ”选择 32 位 安装 目录 


PGI Workstation 15.10 


Locate the temporary directory 


Select the folder representing the temporary directory 


Click Browse to locate another folder; dick Next when finished. 


Destination Folder 


InstallShield 


A917 采用 上 默认 临时 目录 就 可 以 


PGI Workstation 15.10 


Select Program Folder 
Please select a program folder. 


Setup will add program icons to the Program Folder listed below. You may type a new folder 
name, or select one from the existing folders list. Click Next to continue. 


| 
| 


Existing F 


es 


Administrative Tools 

Cygwin 

Elcomsoft Password Recovery 
Foxmail 

Games 


Java 


i 
Instedisnield 


图 9.18 ”选择 文件 夹 名 字 ， 默 认 就 好 


PGI Workstation 15.10 


Create Desktop Shortcut 


Setup can make a shortcut to PGI Workstation and place it on your desktop. Select the YES 
option below to make this shortcut. 


Check Setup Information 


Setup has enough information to begin the file-transfer operation. 
If you want to review or change any of the settings, dick Back. 
If you are satisfied with the settings, dick Next to begin copying files. 


Current settings: 


User Information: 
he 


Xyz 


Destination Directories: 
d: Program Files PGIA 
d: Program Files (x86) \PGI\ 


图 9.20 ”确认 安装 信息 


点 击 图 9.20 中 的 “Next” 按 钮 开始 安装 ， 安 装 进程 会 持续 大 约 几 分 钟 。 


e 一 一 — 
PGI Workstation 15.10 


License Generation 


PGI's license generation tool can generate a license online. 


Would you like to generate permanent or trial license keys now? 


O Yes, generate license keys now. 


rera"merrI"EEIPIT"EPUI""PFPPI"EPFEI"EEIIT"FPPIT"PPPMUPPIIESPFIITP"PPIT"PUTI"PEEIM"ERIN 


图 9.21 因为 有 许可 文件 ， 选 择 第 2 项 


Licensing Information 


a There are two ways to obtain a license for the PGI 
“4 compilers and tools: 


1) Invoke PGI's license generation tool: 

PGI Workstation | Licensing | Generate License 

2] Login to your account on www.pgroup.com. You may need 
the 

following system Host ID to generate a license: 


Host IDs (use only ONE): "206a8ald0td5 207c8t145a0d" 


The system Host ID can also be found in the file: 
d:\Program Files\PGI\license.info 


Place your license in the file: 
d:\Program Files\PGI\icense.dat 


图 9.22 BRT X4 8X4 8, PURE 


PGI Workstation 15.10 


InstallShield Wizard Complete 
A 
EI 


The InstallShield Wizard has successfully installed PGI 
Workstation 15.10. Click Finish to exit the wizard, 


Cancel 


图 9.23 PGI 编译 器 安装 结束 
将 许可 文件 license.dat 放 在 文件 夹 D: \Program FileSPGIN 中 即 可 激活 编译 器 。 


右 击 开始 菜单 中 的 PGI Bash (64) ，“ 发 送 到 桌面 快捷 方式 ”， 见 图 9.24。 


PGI Workstation 
| Command Shells 15.10 
E PGI Bash (64) 
EX PGI Bash 


EN PGI Cmd (64) 
EN PGI Cmd 
Debugger & Profiler 


O Documentation 


Licensing 


图 9.24 ”建立 桌面 快捷 方式 
双击 PGI Bash (64) 桌面 图 标 ， 就 能 打开 一 个 CMD 命 令 行 窗口 。 键 入 命令 
pgcc -version 


可 以 看 到 显示 出 正确 的 版 本 号 15.10 (图 9.25) ， 这 表明 PGI 编 译 器 安装 成 功 ， 许 可 文件 激活 成 功 。 


acchook. ink 


gcc 15.18-8 64-bit target on x86-64 Windows -tp nehalem 
he Portland Group - PGI Compilers and Tools 


opyuright <c? 2815, NUIDIA CORPORATION. All rights reserved. 


图 9.25 ”安装 后 验证 是 否 成 功 


虽然 能 用 ， 但 是 这 个 命令 行 窗口 不 好 用 。 实 际 上 ，PGI workstation 版 中 的 pgcc 等 编译 程序 并 没有 将 代码 移植 到 Windows 操 作 系统 上 ， 而 是 用 cygwin 在 Windows 环 境 下 模拟 Linux 环 境 来 实现 对 
Windows 的 兼容 。 下 载 得 到 的 PGI workstation with OpenACC 安 装 包 文件 中 已 经 包含 了 cygwin， 但 没有 包含 好 用 的 cygwin 命 令 行 终端 。 


为 了 用 着 舒服 ， 可 以 自行 安装 32 位 或 者 64 位 cygwin，cygwin 官 网 为 www.cygwin .com， 具 体 安装 很 简单 ， 此 处 省 略 。 本 节 所 用 测试 机 上 将 64 位 cygwin 安 装 到 了 C: \cygwin64， 见 图 9.26。 


回 到 桌面 ， 右 击 PGI Bash (64) ， 选 择 “ 快 捷 方 式 ”选项 卡 (E0927). 


(C) » cygwin64 + 


——— 


(jel > 计算 机 ， ates 
€T 


组 织 ” 包 会 到 库 中 v ”共享 " o 刻录。 新建 文件 去 


a 


tmp 


usr 


Var 


! Cygwin.bat 


E cyqwin.ico 
C Cyqwin-Terminal.ico 


图 9.26 cygwin 的 安装 位 置 


Bee PGI Bash (64) 硬性 
, | F 3 9 


j| 目标 类 型 : 应 用 程序 
目标 位 置 : System32 


Ets 


C:\Windows \System32omd. exe /c d: “PROGE 


| Aiae): SUSERPROFILES 
RRO: 无 
运行 方式 (0: 
备注 (0: 
打开 文件 位 置 ©) | SAO... 


图 9.27 ”替换 编译 器 的 显示 终端 


将 “目标 ”中 的 路 径 由 C: \Windows\System32\cmd.exe/c d: \PROGRA~2\PGINwin64\15.10\pgi.bat 改 写成 C: \cygwin64\bin\mintty.exe d: \PROGRA~2\PGINwin64\15.10\pgi.bat， 点 
击 “ 确 定 ” 退 出 。 


再 从 桌面 快捷 方式 打开 PGI Bash (64) ， 画 风 就 变 了 ， 使 用 习惯 跟 Linux 保 持 一 致 (图 9.28) 。 


PGI Workstation 15.10 (64) 


he@ -. =>. ~ 
$5 pgcc --version 


pgcc 15.10-0 64-bit target on x86-64 Windows -tp nehalem 


The Portland Group - PGI Compilers and Tools 
Copyright (c) 2015, NVIDIA CORPORATION. All rights reserved. 


图 9.28 cygwin 终端 


9.2 Linux (rhel) 


Red Hat Enterprise Linux 简 称 rhel， 由 红 帽 公司 (www.redhat.com) 发 布 ， 是 超 算 集群 的 首选 操作 系统 。CentOS (Community Enterprise Operating System， 社 区 企业 操作 系统 ) 是 Linux 发 行 
版 之 一 ， 官 方 网 站 www.centos.org， 它 是 用 Red Hat Enterprise Linux 依 照 开放 源 代码 规定 释 出 的 源 代码 所 编译 而 成 。 由 于 出 自 同样 的 源 代码 ， 因 此 有 些 要 求 高 度 稳定 的 服务 器 以 CentOS 蔡 代 商 业 版 的 
rhel 使 用 。 两 者 的 不 同 在 于 CentOS 并 不 包含 封闭 源 代码 软件 。 本 节 以 rhel 为 例 介绍 PGI 编 译 器 的 安装 方法 ，CentOS 下 的 安装 方法 相同 。 


打开 命令 行 终端 键入 命令 : 


# cat /etc/issue 
Red Hat Enterprise Linux Server release 6.2 (Santiago) 
Kernel \r on an Mn 


可 以 看 到 这 是 rhel 6.2 版 本 。 


将 从 PGI 官 网 下 载 的 编译 器 安装 包 放 在 一 个 干净 的 空 目 录 下 。 现 在 绝 大 多 数 个 人 电脑 和 服务 器 都 是 64 位 操作 ， 因 此 这 里 使 用 64 位 的 安装 包 。 解 压 tar 包 ， 可 以 看 到 释放 出 一 个 可 执行 的 安装 引导 文件 


install: 


# ls 

pgilinux-2016-163-x86 64.tar.gz 

# tar zxf pgilinux-2016-163-x86 64.tar.gz 

# ls 

documentation.html install install components  pgilinux-2016-163-x86 64.tar.gz 


在 当前 目录 运行 install， 就 开始 一 步 步 的 选项 。 为 节省 篇 幅 ， 将 合同 条 款 之 类 的 内 容 略 去 ， 只 保留 关键 信息 (其 中 加 灰色 底 纹 部 分 为 键入 内 容 ) : 


4 ./install 

Welcome to the PGI Workstation Linux installer! 

You are installing PGI 2016 version 16.3 for x86 64. 

Press enter to continuehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15917/OEBPS/Text/... [9 2E] 
NVIDIA End-User License Agreement for PGI Software 【合同 内 容 ， 咯 】 
Do you accept these terms? (accept,decline) accept 【同意 合同 内 容 】 
A network installation will save disk space by having only one copy of the compilers and most of the libraries for all compilers on the network, and the main installation needs 
1 Single system install 

2 Network install 

Please choose install option: 1 【网 络 安装 麻烦 ， 选 择 单 机 安装 ， 键 入 1】 

Do you want to continue the PGI installation? (y/n) y 【键入 y， 继 续 】 

Please specify the directory path under which the software will be installed. 

The default directory is /opt/pgi, but you may install anywhere you wish, assuming you have permission to do so. 

Installation directory? [/opt/pgi]【 使 用 默认 安装 目录 ， 键 入 回 车 】 


Note: directory /opt/pgi was created. 
KKK KKK KKK KKK KKK KKK KKK KK KKK e e A A x Ax x xx 


CUDA Toolkit 
pos, dr do, do do, do do d do do do do doo do do d do d do do do do do dio do din dio di dio di dio do dio do doo dio do dio dio do dio do dio dio dio dio do d do dio doo do do do do di do do do do do d doo did 

This release contains a subset of NVIDIA's CUDA 7.0 and CUDA 7.5 toolkits configured for use by the PGI Accelerator and CUDA Fortran compilers and required by the PGPROF profil 
Press enter to continuehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15917/OEBPS/Text/... 【可 车 ， 继 续 】 

In order to install the CUDA software, please read and accept the 


following license. 
End User License Agreement 


Do you accept these terms? (accept,decline) accept 【同意 合同 内 容 】 
The NVIDIA CUDA Toolkit EULA in its entirety is located under the 2016/cuda directory 


炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 大大 火炎 火炎 火炎 火炎 火炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 大 大 火炎 火炎 火炎 火炎 火炎 火炎 类 


AMD 


大大 火炎 火炎 火炎 类 大 火炎 火炎 火炎 火炎 大大 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 大 大 火炎 火炎 火炎 火炎 火炎 火炎 类 


This release contains software components for AMD used by the PGI 
Accelerator compilers. 
Press enter to continuehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15917/OEBPS/Text/... 【 回 车 继续 】 
In order to install AMD software, please read and accept the 

following license. 
END USER LICENSE AGREEMENT 【合同 内 容 ， 咯 】 

Do you accept these terms? (accept,decline) accept 【同意 合同 内 容 】 
大 大 大 大 大 类 大 大 类 大 大 类 大 大 大 大 大 类 大 大 类 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 类 大 大 大 大 大 大 大 大 大 大 大 类 大 大 大 大 大 类 大 大 类 大 大 类 大 大 


Cc 
The JAVA JRE will be installed into 

/opt/pgi/linux86-64/2016/java 
and will not affect applications other than PGI's pgdbg and pgprof. 
Press enter to continuehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15917/OEBPS/Text/... [#4] 
In order to install the JAVA software, please read and accept the 
following license. 
Oracle Binary Code License Agreement for the Java SE Platform Products and JavaFX 【合同 内 容 ， 咯 】 


Do you accept these terms? (accept,decline) accept 【同意 合同 内 容 】 
大 大 类 大 大 类 大 大 大大 大 类 大 大 火炎 大 类 大 大 大大 大 类 大 大 大大 大 类 大 炎炎 大 大大 大 大 类 大 大 类 大 炎炎 大 大 类 大 炎炎 大 炎炎 炎炎 大 大 炎炎 火炎 类 大 大 


OpenACC Unified Memory Evaluation Package 

大 大 大 大 大 大 大 大 大 大 大 类 大 大 类 大 大 大 大 大 类 大 大 类 大 大 类 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 类 大 大 大 大 大 类 大 大 大 大 大 类 大 大 

Press enter to continuehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15917/OEBPS/Text/... 【加 车 继续 】 

In order to install the OpenACC Unified Memory Evaluation package, please read and accept the following license. 

NVIDIA Beta Test License Agreement for PGI Software 【合同 内 容 ， 咯 】 

Do you accept these terms? (accept,decline) accept 【同意 合同 内 容 】 

Installing PGI Workstation version 16.3 into /opt/pgi 

EEE HE AE a HE HETE EAEE HEE 

f you use the 2016 directory in your path, you may choose toupdate the links in that directory to point to the 16.3 directory. 

Do you wish to update/create links in the 2016 directory? (y/n) y 

Making symbolic links in /opt/pgi/linux86-64/2016 

[nstalling PGI JAVA components into /opt/pgi 

Installing PGI CUDA components into /opt/pgi 

Installing AMD GPU components into /opt/pgi 

Installing PGI OpenACC Unified Memory components into /opt/pgi http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15917/0EBPS/Text/... 
大 大 大 大 大 大 大 大 大 大 大 类 大 大 大 大 大 类 大 大 类 大 大 类 大 大 类 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 类 大 大 大 大 大 类 大 大 大 大 大 类 大 大 

EO E EE EA A A NTN E AA EAE ORO et 

This release contains version 1.10.1 of the Open MPI library. 【其 实 本 书 例子 不 涉及 MPI， 不 必 安 装 ， 但 没 得 选择 只 能 安装 

Press enter to continuehttp: / / www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15917/OEBPS/Text/... 【可 车 继续 】 
Installing Open MPI 1.10.1 components into /opt/pgi http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15917/0l 
Generating Environment Modules http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15917/OEBPS/Text/... Done 
Installing ScaLAPACK 2.0.2 components into /opt/pgi http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15917/OEBPS/Text/... Done 
Installing module files for PGI version(s): 16.3 2016 


= 


= 


Ij 


BPS/Text/... Done 


I 


Do you wish to generate license keys? (y/n) y 【生成 许可 钥 是 】 

All PGI software is license-managed. This program will walk you through the steps required to download and install your license keys. An active Internet connection is requirec 
If this computer is behind a firewall at your site, please make sure it can access the Internet. 
Generate a license key for this computer 

2 Configure and start a license server on this computer 

1 All of the above 

I'm not sure (quit now and re-run this script later,) 

oe d 【不 让 安装 程序 自动 操作 】 

The PGI license tool can be re-started by running the script located at 
/opt/pgi/linux86-64/16.3/bin/pgi license tool. 

Do you want the files in the install directory to be read-only? (y/n) y【 设 定安 装 目录 只 读 ， 避 免 误 操作 】 
Installation complete. 【人 安装 引导 至 此 结束 ， 退 出 】 


用 许可 文件 激活 编译 器 很 简单 ， 将 从 PGI 官 网 下 载 的 许可 文件 license.dat 放 到 目录 /opt/pgi 下 即 可 。 


创建 环境 变量 文件 /etc/profile.d/pgi-env.sh， 文 件 内 容 如 下 : 


export PGI-/opt/pgi 


export PATH-/opt/pgi/linux86-64/16.3/bin:$PATH 

export MANPATH=SMANPATH: /opt/pgi/linux86-64/16.3/man 

export LM LICENSE FILE=$LM LICENSE FILE: /opt/pgi/license.dat 
export PGI ACC TIME=1 

export PGI ACC NOTIFY-1 


然后 注销 用 户 退 出 操作 系统 ， 重 新 登录 后 环境 变量 生效 。 查 看 PGCC 编 译 器 的 版 本 号 : 


# pgcc --version 

pgcc 16.3-0 64-bit target on x86-64 Linux -tp sandybridge 
The Portland Group - PGI Compilers and Tools 
Copyright (c) 2016, NVIDIA CORPORATION. All rights reserved. 


这 表示 部 署 成 功 。 


9.3 ”编译 工具 、 特 性 文 持 度 


这 里 列 出 本 书 涉及 的 PGI 编 译 命令 、 男 像 器 简介 和 PGI 编 译 器 支持 OpenACC 特 性 的 支持 情况 。 


pgcc -mp -acc -Minfo -o myprog.exe myprog.c 


pgcc 是 PGI 编 译 器 的 C 语 言 编译 程序 ， 选 项 -mp 打开 对 OpenMP 的 支持 ， 选 项 -acc 打 开 对 OpenACC 的 支持 。Fortran 语 言 对 应 的 编译 程序 是 pgfortran， 选 项 含义 与 pgcc 相 同 。 
pgcc/pgfortran 支 持 的 部 分 选项 如 下 : 

-help: 显示 该 程序 的 所 有 参数 ; 

--version: 显示 编译 器 的 版 本 号 ; 

-ta=tesla: pin: 使 用 锚 定 内 存 (版 本 15.10) 

-ta-tesla: pined: 使 用 锚 定 内 存 (版 本 16.1 及 以 上 ) 。 

画像 器 (profiler) 有 两 个 。 


: NVIDIA Visual Profiler: 显示 程序 运行 的 时 间 线 ， 用 来 定位 性 能 瓶颈 。 人 官方 声称 能 同时 收集 GPU 和 CPU 的 数据 ， 实 际 上 只 能 收集 GPU 数据 。 这 个 可 视 化 画像 器 既 可 以 独立 使 用 ， 也 可 以 集成 到 Nsight 
Eclipse 中 使 用 。 独 立 版 本 称 为 hvvp， 随 CUDA Toolkit 一 起 发 布 ， 在 linux 环 境 下 直接 输入 命令 nvvp 就 可 以 启动 。 


` nvprof: 命令 行 画像 器 ， 收 集 程序 的 运行 数据 并 能 够 保存 到 一 个 文件 中 。 将 数据 文件 导入 nvvp 中 即 可 得 到 图 形 化 的 时 间 线 。 对 那些 只 能 远程 命令 行 登录 的 超级 计算 机 来 说 ， 这 个 画像 器 很 有 用 。 随 
CUDA Toolkit 一 起 发 布 ， 详 细 语 法 可 用 命 人 4 


> 


nvprof--help & Æ- 
编译 器 会 逐步 增加 对 OpenACC 特 性 的 支持 度 ， 不 会 一 下 子 全 部 支持 ， 表 9.1、 表 9.2 和 表 9.3 分 别 列 出 了 OpenACC 1.0/2.0/2.5 的 特性 以 及 PGI 编 译 器 的 支持 情况 。 


表 9.1 OpenACC 1.0 特 性 汇总 和 对 应 的 PGI 编 译 器 版 本 


特 性 
!$acc kernels 
Til: 
EE 
async() 
copy () 
copyin() 
copyout () 
create () 
present () 
present or copy () 
present or copyin() 
present or copyout() 
present or create() 


deviceptr() 


!Sacc parallel 
Tis: 


if() 


me 

3 | 

ENTE 

OB 

ENTE 

ENTE 

EE M present or copy() 
| we o present or copyin() 
| m3 present or copyout () 
389 | present or create () 
EE NN device resident() 
ENTE 
ENTE 
ENTENI 
NENNEN 
ENCENE 
NENNEN 
ENTE 


deviceptr() 


TB: 


async ( 


12.3 


12.3 
12.3 


async |) 

num gangs (} 

num workers ({) 
vector length() 
reduction 1 ) 
copyin () 
copyout () 
create () 
presenti) 
present or copy(í) 


present or copyin(í) 


present or copyouti) 


present or create} 
deviceptrií) 
private i() 
firstprivate () 

acc async test () 
'Sacc data 

Td: 

ifi} 

async i} 

copy () 

copyint{) 

create () 
presenti) 
present or copv() 


present or copyin() 


present or copyoutií) 


present or createl) 
deviceptr() in C 


deviceptrí() in Ftn 


— — 
b- bk 
LA LA 


— 
bt 
Jh 


12.3 


14.1] 


!lSacc cache 


zi 
= 


in 
ful 
门 
门 
m 
C 
LA 
rt 
CL 
[pu 
rt 
n 


| acc wait 


运行 时 例 程 : 
Openacc module 


openacc.h C hdr file 


openace lib.h Ftn hdr file 


acc get num devices() 
acc set device typel) 


acc get device type() 


acc set device num() 


acc get device numí) 


acc async test allí) 
acc async wait(í) 


acc async wait allí) 


acc inití) 
acc shutdown(í) 


acc on device(t) 


acc malloc() for C 


acc free() for C 


| OPENACC 


环境 变量 : 
ACC DEVICE TYPE 


ACC DEVICE NUM 


14.1] 


特 性 
!$acc loop 
Tis: 
collapse () 
within kernels region 
gang () 
worker () 
vector () 
seq () 
private () 
reduction () 
within parallel region 
gang 
worker 


vector 


特 性 
Kernels clauses 
wait() 

default (none) 


device type() 


Parallel clauses 
wait () 

default (none) 
device type () 
Loops 子 语 

tile() 

auto () 


device type() 


Update Tif 


we 
essere — — — 
— Jessica — — — 
al 


表 9.2 OpenACC 2.0 特 性 汇总 和 对 应 的 PGI 编 译 器 版 本 


Nr 
EEEEEN bind name () 
bind string() 
15.1 device type() 
ee 
H 
acc wait() 
EN acc wait all() 


12.6 
12.6 
12.6 
12.6 
12.6 
12.6 
12.6 
12.6 
12.6 


12.6 


14.1 
14.1 
14.1 
14.1 
14.1 
14.7 
14.7 
15.1 
14.7 
14.4 


14.4 


14.1 


14.1 


Declare 子 语 


link() 


!$acc enter data 


LI 
async() 
wait() 
copyin() 
create () 


pcopy () 


pcreate () 


!$acc exit data 
if () 

async() 

wait() 
copyout () 


delete() 


acc wait async() 

国光 acc copyin() 

EN acc present or copyin() 

a acc create ({) 

EE acc present or  create() 
14.1 acc copyout () 

acc delete() 

acc map data() 

acc unmap data() 

acc deviceptr () 

acc hostptr() 

acc is present() 

acc memcpy to device () 

EE acc memcpy from device () 

acc update device() 

acc update self(í) 


ol 


表 9.3 OpenACC 2.5 特 性 汇总 和 对 应 的 PGI 编 译 器 版 本 


特 性 


Bi Siw copy. copyin, copyout 和 create 的 行为 改变 


接口 例 程 acc copyin, acc create, acc copyout 和 acc delete 的 行为 改变 
计算 构件 的 新 子 语 default (present) 


数据 接口 例 程 的 异步 版 本 


新 的 接口 例 程 acc memcpy device 
男 像 和 追踪 工具 的 全 新 OpenAcc 接口 
declare create 对 Fortran 动态 分 配 数 组 的 行为 改变 


为 设备 数据 添加 的 引用 计数 


( 续 ) 
版 X 
14.1 
14.4 
14.1 
14.1 
14.1 
14.1 
14.1 
14.1 
14.1 
14.1 
14.1 
14.1 
14.1 
14.1 
14.1 
14.1 


14.1 


特 性 版 本 
导语 exit data 的 行为 改变 新 增 可 选项 finalize Fi =- 一 
update 了 守 语 的 新 增 子 培 if present nes 
新 增 导语 init, shutdown, set = 
routine bind 子 语 的 定义 变化 — 
为 获取 和 设 定 默认 异步 队列 值 新 增 的 接口 例 程 -— 


kernels 构件 上 子 语 num gangs, num workers 和 vector length ac 


最 新 支持 情况 请 访问 官网 http://www.pgroup.comy/resources/accel.htm。 


第 10 章 ”在 神威 :太湖 之 光 上 使 用 OpenACC 


部 署 在 国家 超级 计算 无 锡 中 心 的 神威 太湖 之 光 计 算 机 系统 ， 是 由 我 国 自主 研制 的 全 国产 高 性 能 计算 机 系统 ， 全 部 采用 自主 研制 的 高 性 能 申 威 SW26010 众 核 处 理 器 构建 ， 是 国际 上 第 一 台 十 亿 亿 次 超级 
计算 机 系统 ， 并 在 2016 年 6 月 发 布 的 Top500 中 荣 登 榜首 ， 获 得 三 项 指标 的 世界 第 一 。 神 威 太湖 之 光 计 算 机 提供 包括 基础 软件 、 并 行 操作 系统 环境 、 高 性 能 存储 管理 系统 、 并 行 语言 及 编译 环境 、 并 行 开发 环境 
等 在 内 的 完备 的 软件 系统 ， 支 持 MPI[、OpenMP、OpenACC 等 主流 的 并 行 编程 语言 接口 。 


得 益 于 OpenACC 语 言 对 异 构 加 速 编程 简 洁 的 抽象 和 描述 ，OpenACC 在 神威 太湖 之 光 计 算 机 系统 中 也 得 到 了 实现 和 应 用 ， 已 有 涵盖 气候 气象 、 地 震 勘 探 、 海 洋 船 舶 等 诸多 领域 的 应 用 课题 ， 这 些 应 用 使 用 
OpenACC 在 神威 . 太湖 之 光 上 进行 了 移植 和 优化 ， 取 得 了 不 错 的 成 果 与 效益 。 


由 于 SW26010 众 核 处 理 器 和 由 GPU、MIC 等 搭建 的 异 构 计算 平台 存在 一 些 结构 上 的 差异 ， 因 此 OpenACC 在 神威 " 太湖 之 光 计算 机 系统 中 的 实现 和 使 用 也 有 所 不 同 ， 并 在 神威 .太湖 之 光 计算 机 中 对 
OpenACC 标 准 进行 了 适当 的 功能 延伸 和 语法 扩展 。 


本 章 将 简要 介绍 在 神威 ， 太湖 之 光 计 算 机 系统 中 如 何 使 用 OpenACC， 供 有 机 会 或 有 兴趣 使 用 神威 . 太湖 之 光 计算 机 系统 的 读者 参考 。 


10.1 SW26010 众 核 处 理 器 


为 了 更 好 地 说 明 与 GPU 平 台 的 差异 ， 首 先 简 要 介绍 一 下 SW26010 众 核 处 理 器 的 结构 。SW26010 众 核 处 理 器 采用 了 异 构 融合 架构 ， 将 多 个 通用 处 理 器 核心 和 加 速 处 理 核心 融合 在 同一 个 蕊 片上， 其 处 理 
器 架构 如 图 10.1 所 示 。 
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图 10.1 SW26010 众 核 处 理 器 架构 图 


SW26010 由 4 个 核 组 组 成 ， 每 个 核 组 包括 一 个 主 核 和 一 个 从 核 簇 ， 每 个 从 核 簇 由 64 个 从 核 组 成 ， 共 260 个 处 理 器 核心 ， 同 一 个 核 组 内 的 主 核 和 64 个 从 核 共 享 主 存 ， 每 个 从 核 有 独立 的 、 容 量 为 64KB 的 高 
速 缓存 (SPM: Scratch Pad Memory) ， 支 持 以 DMA (Direct Memory Access) 的 方式 在 主 存 和 SPM 之 间 传 输 数 据 ，DMA 操 作 由 从 核发 起 。 主 核 作为 通用 处 理 器 核心 ， 可 以 进行 通信 、IO、 计 算 等 操 
作 ， 同 一 个 核 组 内 的 64 个 从 核 作为 加 速 计算 部 件 ， 用 来 加 速 主 核 代码 中 的 计算 密集 部 分 。 为 了 便于 理解 ， 可 以 和 使 用 X86 处 理 器 +GPU 计 算 卡 构建 的 异 构 计 算 平台 进行 对 比 ， 从 功能 上 看 ，SW26010 中 的 主 
核 可 以 对 应 到 X86 平台 的 通用 处 理 器 核心 ， 一 个 从 核 簇 可 以 对 应 其 中 的 GPU 卡 ， 用 来 辅助 计算 加 速 。 


10.2 ”存储 异型 


如 前 文 所 述 ，SW26010 众 核 处理 器 与 由 GPU 等 搭建 的 异 构 计算 平台 存在 着 结构 上 的 差异 ， 因 此 在 神威 .太湖 之 光 计 算 机 对 OpenAC5C 标 准 进行 了 适当 的 功能 延伸 和 语法 扩展 ， 为 了 与 OpenACC 标 准 进行 
区 分 ， 本 章 中 用 OpenACC* 来 表示 神威 :太湖 之 光 计 算 机 系统 的 OpenACC 实 现 。OpenACC* 和 OpenACC 标 准 最 大 的 区 别 在 于 存储 模型 ， 在 语言 功能 和 使 用 上 表现 为 数据 管理 方式 不 一 样 。 


OpenACCi 语 言 标 准 支 持 的 存储 模型 主要 是 一 种 主机 内 存 和 加 速 器 内 存 分 离 的 模型 ， 它 对 应 目前 大 多 数 的 GPU 平 台 。OpenACC 标 准 借助 设备 数据 环境 来 支持 分 离 内 存 ， 采 用 诸如 data 构 件 、declare 导 
语 、copy 子 语 来 控制 数据 在 主机 内 存 和 加 速 器 内 存 之 间 的 移动 和 使 用 。OpenACC 规 范文 本 中 也 提 到 了 对 设备 与 本 地 线程 共享 内 存 架 构 的 支持 ， 对 于 这 种 共享 内 存 的 架构 ， 按 照 OpenACC 2.5 规 范文 本 的 说 
明 ， 编 译 器 不 需要 为 设备 创建 新 的 数据 副本 ， 也 不 需要 移动 数据 。 也 就 是 说 在 共享 内 存 的 异 构 计算 平台 上 ，OpenACC 标 准 语言 中 的 数据 管理 功能 将 不 起 作用 或 不 需要 处 理 ， 但 是 加 速 设备 直接 访问 共享 
存 往往 会 带 来 性 能 损失 。 


SW26010 中 的 从 核 和 主 核 共享 内 存 ， 从 核 可 以 直接 访问 主 核 线程 的 数据 空间 ， 是 一 种 共享 内 存 的 异 构架 构 ， 因 此 OpenACC 标 准 中 的 数据 管理 功能 将 不 产生 实际 的 作用 。 但 是 直接 访问 主 存 往往 会 带 3 
性 能 损失 ， 因 此 需要 充分 利用 从 核 中 的 高 速 缓冲 SPM， 提 升 数据 访问 效率 。 在 神威 .太湖 之 光 中 ，OpenACC* 对 OpenACC 标 准 所 做 的 主要 功能 延伸 和 语法 扩充 就 是 为 了 解决 在 共享 内 存 的 染 构 下 片 内 高 速 存 
储 空间 的 使 用 问题 。 实 际 上 在 GPU 中 也 有 很 多 片上 的 高 速 缓冲 ， 比 如 constant、texture 等 ， 这 些 空间 在 OpenACC 语 言 标准 中 均 没 有 得 到 体现 ， 而 是 由 编译 器 来 选择 使 用 ;另外 需要 说 明 的 是 ,OpenACC* 
中 的 部 分 扩充 得 到 了 OpenACC 组 织 的 认可 ， 可 能 会 合并 到 后 续 发 布 的 OpenACC 标 准 中 。 


在 SW26010 中 ， 从 一 个 加 速 线程 的 角度 来 看 ， 其 可 见 的 数据 空间 有 三 种 。 


1) 主线 程 数 据 空间 : 位 于 主 存 ， 主 线程 的 内 存 空 间 对 其 创建 的 加 速 线程 直接 可 见 ， 加 速 线程 可 以 直接 访问 相应 的 数据 ; 对 于 主线 程 创 建 的 多 个 加 速 线程 而 言 ， 这 部 分 空间 是 共享 的 ; 程序 中 在 加 速 区 外 


定义 的 变量 ， 均 位 于 该 空间 内 。 
2) 加 速 线程 私有 空间 : 位 于 主 存 ， 每 个 加 速 线程 有 独立 的 私有 空间 ， 程 序 中 使 用 private、firstprivate 子 语 修饰 的 变量 将 存放 于 该 空间 内 。 


3) 加 速 线程 本 地 空间 : 位 于 设备 内 存 ， 每 个 加 速 线程 有 独立 的 本 地 空间 (SPM) ， 本 地 空间 的 访问 性 能 是 三 种 空间 中 最 高 的 。 程 序 中 使 用 copy、local 等 数据 子 语 修饰 的 变量 将 由 编译 系统 控制 ， 全 部 
或 局 部 人 存放 于 SPM 内 。 主 存 与 本 地 空间 的 数据 交互 由 加 速 线程 控制 。 


OpenACC* 存 储 模型 如 图 10.2 所 示 。 
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图 10.2 ”OpenACC* 存 储 模型 


10.3 ”执行 模型 
OpenACC* 的 执行 模型 与 OpenACC 标 准 基本 一 致 ， 在 此 简要 进行 说 明 ， 如 图 10.3 所 示 。 
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图 10.3 ”OpenACC* 执 行 模型 


程序 首先 在 Host ( 主 核 ) 上 启动 运行 ， 以 一 个 主线 程 串 行 执行 ， 或 者 通过 使 用 OpenMP 或 MPI 等 编程 接口 以 多 个 主线 程 并 行 执 行 ， 计 算 密集 区 域 则 在 主线 程 的 控制 下 作为 kernel (加 速 任务 ) 被 加 载 到 
Device (MZR) 上 执行 。 


kernel 的 主要 执行 过 程 包括 : 
: 在 Device Memory (SPM) 上 分 配 所 需 数据 空间 ; 
- 加 载 kernel 代 码 (包含 kernel 参 数 ) 至 Device; 
: 由 Device 发 起 ，ketrnel 将 所 需 数据 从 主 存 传 输 至 设备 内 存 ， 等 待 数据 传输 完成 ; 
Device 进 行 计算 并 将 结果 传送 回 主 存 ; 
- 释放 设备 上 的 数据 空间 。 


大 多 数 情 况 下 ，host 可 以 加 载 一 系列 kernels， 并 在 加 速 设备 上 逐个 执行 。 


10.4 ”数据 管理 


在 OpenACC* 中 ， 可 以 控制 的 是 将 数据 合理 地 存放 在 SPM 中 ， 以 提升 程序 的 访 存 性 能 。 本 节 将 简要 介绍 OpenACC* 控 制 数据 传输 和 使 用 的 几 种 方式 。 请 注意 ，OpenACC* 所 做 的 功能 延伸 和 语法 扩充 ， 
均 以 OpenACC 标 准 为 基础 ， 其 概念 和 语法 均 与 OpenACC 标 准 保 持 一 致 ， 因 此 这 里 仪 说 明 用 法 上 不 相同 的 部 分 。OpenACC* 完 整 介绍 请 到 国家 超级 计算 无 锡 中 心 官网 http://www.nsccwx.cn/ 获 取 资 料 。 


1. 使 用 data 构 件 控制 数据 传输 


OpenACC* 中 ， 程 序 员 可 以 用 data 构 件 ， 配 合 copy/copyin/copyout 子 语 直接 控制 数据 在 主 存 和 SPM 之 间 的 传输 ， 所 需 的 SPM 空 间 由 编译 器 申请 和 释放 。 有 具体 用 法 如 图 10.4 (b) 所 示 ， 图 中 (a) 的 
用 法 是 OpenACC 标 准 中 所 描述 的 用 法 ，data 构 件 位 于 parallel 构 件 之 外 。 而 在 OpenACC* 中 ，data 构 件 可 以 在 parallel 的 动态 执行 区 域内 被 使 用 。 


!$acc data copyin(A) copyout(B) 


acc parallel loo, do i=1,128 
do i-1,128 m = func(i) 


m - func(i) /$acc data copyin(A(*, m)) copyout(B(*, i)) 
do j=1,128 do j=1,128 
B(j, i) = A(j, m) B(j, i) = A(j, m) 
enddo enddo 
enddo !$acc end data 


enddo 
/$acc end data 


(a) OpenACC2.5 (b) OpenACC* 
图 10.4 使 用 data 构 件 控制 数据 传输 示例 
2 循环 数据 拷贝 控制 


OpenACC* 延 伸 了 parallel 构 件 的 copy 子 语 的 语义 ， 用 于 管理 主 存 到 多 个 SPM 的 数据 传输 。 与 loop 构件 和 tile 子 句 配合 使 用 ， 能 有 效 控制 数据 拷贝 的 大 小 ， 以 便 充 分 利用 容量 有 限 的 SPM 空 间 。 具 体 用 
法 见 图 10.5 中 的 Fortran 代 码 。 


J 


!$acc parallel loop copyin(A, B) copyout( 
doi=1, 64 
!$ace loop tile(2) 
doj=1,128 
do k = 1,256 
C(k, j, i) = A(k, j, i) + B(k, j, i) 
end do 
end do /end of j-loop 


E 


/Sacc end loop 
end do /end of loop 
!bacc end parallel loop 


图 10.5 ”循环 数据 拷贝 控制 示例 


图 10.5 中 的 程序 在 SW26010 中 的 处 理 方式 将 会 与 GPU 平 台 有 很 大 的 差别 ， 编 译 器 会 自动 分 析 数 据 访问 方式 与 循环 划分 方式 的 映射 关系 ， 根 据 循环 划分 方式 确定 数据 的 划分 方式 ，i 循 环 将 会 以 块 大 小 为 1 
的 方式 进行 并 行 划 分 ，j 循 环 将 会 在 tile 子 句 的 作用 下 ， 以 块 大 小 为 2 的 方式 进行 串 行 划 分 ， 与 之 相对 应 的 ，A、B、C 三 个 数组 的 划分 方式 也 可 以 确定 ， 以 A 为 例 ， 每 轮 计算 所 需要 的 A 的 数据 量 是 
(256, 2, 1) ， 编 译 器 会 在 SPM 中 为 A、B、C 三 个 数组 分 别 申请 (256, 2, 1) 的 缓冲 ， 并 自动 生成 对 应 的 数据 传输 控制 语句 。 

3. 使 用 local 子 语 直接 申请 片上 高 速 缓存 空间 

在 OpenACC* 中 扩充 了 local 子 语 ， 用 于 直接 在 片上 高 速 缓存 中 为 对 应 的 变量 申请 空间 。local 子 语 与 private 子 语 所 描述 的 数据 属性 相同 ， 均 为 加 速 线 程 私有 变量 ， 唯 一 的 区 别 在 于 local 子 语 描述 的 变量 
将 会 在 性 能 更 高 的 缓存 (SPM) 中 申请 空间 ，local 的 具体 用 法 与 private 子 语 类 似 ， 不 费 述 。 

4. 优 化 的 数据 传输 控制 

除了 沿用 OpenACC 标 准 中 的 copy 子 语 进 行 数据 传输 控制 之 外 ，OpenACC* 中 还 扩充 了 两 种 优化 的 数据 传输 控制 子 语 ， 分 别 是 swap/swapin/swapout 和 pack/packin/packout， 二 者 都 是 通过 数据 变 
换 来 提升 数据 传输 效率 的 有 效 手段 。 


swap 系 列子 句 的 作用 是 首先 对 数组 进行 转 置 ， 然 后 再 进行 数据 传输 ， 其 使 用 示例 如 图 10.6 所 示 。 


/$acc parallel loop copyin(A) copy(C) 


了 
"i 


!bacc& swapin(B(dimension order:2, 1)) 
doi - 1, 64 
do j = 1, 128 
C(j, Dl= CG, i) + AG, t)" B(i, j) 
end do 
end do 


!$acc end parallel loop 


Transposed 


B(64,128) B'(128,64) 


Use Accelerator 


C(j, i) = Cj, i) + AG, i)" B'(j, i) 


图 10.6  swap-f- 4) 48 M s P] 


swap 主 要 用 来 处 理 某 些 访问 方式 不 连续 的 数组 数据 的 拷贝 。 访 问 方式 的 不 连续 会 带 来 含有 跨 步 的 数据 传输 操作 ， 性 能 较 差 ，swap 子 语 可 以 先 将 这 些 数组 转 置 ， 而 后 通过 连续 的 数据 传输 操作 进行 传 
输 ， 以 提高 数据 传输 的 效率 。 如 图 10.7 所 示 ， 对 数组 B 的 访问 为 从 高 维 到 低 维 ， 不 连续 ， 通 过 swap 的 转 置 将 B 的 两 个 维度 互 换 顺 序 (dimension order 指 定 目标 数组 维度 的 转 置 方式 ) ， 实 现 传输 过 程 中 数据 
地 址 的 连续 性 ， 保 证 传输 效率 。 在 神威 .太湖 之 光 计算 机 系统 中 ， 可 以 支持 最 大 6 维 数组 的 转 置 ， 并 且 数 组 转 置 由 从 核 篮 高 效 完成 。 


pack 系 列子 句 的 作用 是 对 多 个 零散 变量 进行 打包 聚合 ， 然 后 将 打包 后 的 数据 作为 整体 进行 传输 。 如 图 10.7 所 示 ， 编 译 器 会 将 A、B、C 打 包 成 男 一 个 数组 来 传输 ， 并 在 使 用 时 直接 使 用 该 数组 进行 计算 。 
该 子 句 主 要 适用 于 多 个 数组 或 标量 的 数据 聚合 传输 。 


/$acc parallel loop copyout(D) packin(A, B, C) 
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hacc end parallel loop 


A(32, 64) dataPack 
B(32, 64) pkin data(3,32,64) 
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D(j,i)= pkin data(3, j, i) *pkin data(2, j, i)*pakin data(1, j, i) 


图 10.7 pack 使 用 示例 


附录 ”看 名 超级 计算 机 


科学 与 工程 计算 任务 通常 使 用 浮 点 数值 ， 一 颗 处 理 器 、 一 台 服 务 器 或 超级 计算 机 的 理论 运算 峰值 的 衡量 标准 是 每 秒 钟 浮 点 操作 次 数 (floating-point operations per second, FLOPS) 。 对 CPU、 
MIC、GPU 等 处 理 器 而 言 ， 理 论 峰 值 的 计算 方法 很 简单 : 
理论 峰值 二 核心 数 X 频 这 XX 每 时 钟 周期 浮 点 运算 次 数 


Ma, Intel Xeon E5-2660 v3 CPU 10 核 @2.6GHz 的 双 精 度 理论 峰值 为 10x2.6x16 =416Gflops， 单 精度 浮 点 峰值 为 10x2.6x32 = 832 Gflops; Intel Xeon E5-2680 v4 CPU 14 核 @2.4GHz 的 双 精 度 
浮 点 峰值 为 14x2.4x16 = 537.6 Gflops， 单 精度 浮 点 峰值 为 14x2.4x32 = 1075.2 Gflops。 这 里 的 系数 16 和 32 分 别 为 每 个 时 钟 周 期 内 的 双 精 度 、 单 精度 浮 点 操作 次 数 。 这 些 系数 跟 CPU 的 架构 有 关 。 


超级 计算 机 技术 的 发 展 风向 标 是 TOP500 榜 单 (http://www.top500.org/) 。 该 榜 单列 出 世界 上 最 强大 的 500 台 商用 计算 机 系统 ， 每 年 发 布 2 次 。 榜 单 包含 下 列 信息 : 排名 、 制 造 商 、 型 号 、 安 装 位 置 、 
安装 或 升级 年 份 、 应 用 领域 、 处 理 器 核心 数 、 理 论 峰 值 、 实 测 峰值 。 实 测 峰 值 由 测试 程序 LINPACK 运 行 给 出 。 
天 河 一 号 

天 河 一 号 (图 1) 是 中 国 第 一 次 登 上 TOP500 榜 首 的 超级 计算 机 。 天 河 一 号 从 2008 年 开始 研制 ， 按 两 期 工程 实施 。 

一 期 系统 (TH-1) 于 2009 年 9 月 研制 成 功 ， 双 精度 理论 峰值 为 1206Tflops， 实 测 峰值 为 563.1Tflops， 是 我 国 首 台 干 万 亿 次 超级 计算 机 系统 ， 参 加 2009 年 11 月 世界 超级 计算 机 TOP500 排 名 ， 位 列 亚洲 
第 一 、 世 界 第 五 ， 实 现 了 我 国 自主 研制 超级 计算 机 能 力 从 百 万 亿 次 到 干 万 亿 次 的 跨越 ， 使 我 国 成 为 继 美 国之 后 世界 上 第 二 个 能 够 研制 干 万 亿 次 超级 计算 机 的 国家 。 

二 期 系统 (TH-1A) 于 2010 年 8 月 在 国家 超级 计算 天 津 中 心 升级 完成 ， 双 精度 理论 峰值 提升 为 4700Tflops， 实 测 峰值 提升 为 2566Tflops， 部 分 采用 了 自主 研制 的 飞腾 1000 中 央 处 理 器 。 在 2010 年 11 月 
发 布 的 TOP500 榜 单 上 位 列 世界 第 一 ， 实 现 了 从 亚洲 第 一 向 世界 第 一 的 历史 性 突破 。 


图 1 超级 计算 机 : 天 河 一 号 


天 河 一 号 采用 CPU 和 GPU 相 结 合 的 异 构 融 合计 算 体系 结构 ， 强 大 的 计算 能 力 来 自 7168 个 计算 结 点 和 1024 个 服务 结 点 。 每 个 计算 结 点 包含 2 颗 英特尔 至 强 X5670 CPU (6 核 @2.93GHz) 和 1 颗 英 伟 达 
Tesla M2050 GPU (448 个 CUDA 核 ) 。 计 算 结 点 中 GPU 的 双 精 度 理 论 峰 值 为 7168x0.515 = 3691.51Tflops， 占 系统 峰值 的 78.5%， 贡 献 了 大 部 分 计算 能 力 。 


泰坦 (Titan) 安装 在 美国 能 源 部 下 属 的 橡树 岭 国家 实验 室 ， 由 克 雷 公司 建造 ， 如 图 2 所 示 。 泰 坦 是 由 原来 的 美洲 虎 (Jaguar) 经 过 多 次 升级 改装 而 成 ， 于 2012 年 11 月 村 得 TOP500 的 第 一 名 。 
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图 2 超级 计算 机 : 泰坦 


泰坦 使 用 AMD Opteron CPU 连接 英 伟 达 Tesla K20X GPU 来 提供 比美 洲 虎 更 高 的 性 能 ， 同 时 保持 能 源 利用 效率 。 整 台 泰 坦 共 有 18688 颗 CPU 和 相同 数量 的 GPU， 理 论 峰 值 性 能 是 27Pflops， 实 测 峰 值 
17.59Pflops， 效 率 仅 有 65.1%。 尽 管 如 此 ， 但 无 论 从 性 能 上 还 是 能 效 比 上 来 说， 仍然 要 比 同 时 期 的 其 他 超级 计算 机 更 胜 一 筹 。 


每 台 刀 片 服务 器 拥有 4 个 运算 节点 ， 每 个 运算 节点 包含 1 颗 AMD Opteron 6274 CPU 和 一 块 Tesla K20X GPU。 图 3 中 间 的 4 个 铜 质 散热 器 下 面 是 4 颗 CPU， 两 边 并 排放 置 的 是 4 块 GPU。 
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天 河 二 号 ( 见 图 4) 由 中 国 国 防 科学 技术 大 学 研制 ， 理 论 峰 值 54.9Pflops， 实 测 峰 值 33.86Pflops， 在 2013 年 6 月 发 布 的 TOP500 榜 单 上 位 列 第 一 ， 截 止 到 2015 年 11 月 ， 蝉 联 六 连 冠 。 天 河 二 号 部 署 在 国 


家 超 算 广州 中 心 ， 规 模 庞大 ， 有 125 个 计算 机 柜 、8 个 服务 机 柜 、13 个 通信 机 柜 和 24 个 存储 机 柜 ， 占 地 面积 720m2， 内 存 总 容量 1.4PB， 人 存储 总 容量 12.4PB， 最 大 运行 功 耗 17.8MW。 与 天 河 一 号 相 比 ， 二 者 
占 地 面积 相当 ， 而 天 河 二 号 计算 性 能 和 计算 密度 均 提升 了 10 倍 以 上 ， 能 效 比 提升 了 2 倍 ， 执 行 相同 计算 任务 的 耗 电 量 只 有 天 河 一 号 的 三 分 之 一 。 
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图 4 超级 计算 机 : 天 河 二 号 


天 河 2 号 由 16000 个 节点 组 成 ， 每 个 节点 拥有 2 颗 英特尔 至 强 E5-2692 v2 CPU 和 3 个 英特尔 至 强 Phi 31S1P 协 处 理 器 ， 累 计 共 有 32000 颗 CPU 和 48000 颗 协 处 理 器 。 每 颗 E5-2692 v2 CPU 拥有 12 个 核心 ， 
主 频 2.2GHz， 理 论 峰值 为 0.2112Tflops; 每 颗 Phi 31S1P 协 处 理 器 拥有 61 个 核心 ， 实 际 使 用 57 个 核心 ， 理 论 峰 值 为 1.003Tflops。 因 此 ， 所 有 协 处 理 器 的 理论 峰值 为 48.144Pflops， 占 整 机 计算 能 力 的 
87.69%。 图 5 和 图 6 分 别 为 天 河 二 号 的 计算 节点 架构 和 协 处 理 器 安装 方式 。 
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图 6 ”天河 二 号 协 处 理 器 安装 方式 
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2016 年 6 月 20 日 ， 在 国际 超 算 大 会 (1SC) 公布 的 TOP500 榜 单 上 ， 由 国家 并 行 计算 机 工程 技术 研究 中 心 研制 的 “神威 太湖 之 光 ” 以 超过 第 二 名 近 3 倍 的 运算 速度 夺 得 第 一 。 太 湖 之 光 (图 7) 安装 在 国家 
超 算 无 锡 中 心 ， 包 括 处 理 器 在 内 的 所 有 核心 部 件 全 国产 化 ， 有 40 个 运算 机 柜 和 8 个 网 络 机 柜 ， 共 40960 个 申 威 26010 处 理 器 ， 每 个 处 理 器 拥有 260 个 核心 ， 理 论 峰值 125.436Pflops， 实 测 峰值 93.015Pflops。 


> frr 
图 7 神威 太湖 之 光 
建造 中 的 新 型 超 算 


2014 年 11 月 ， 美 国 能 源 部 宣布 了 一 项 采购 计划 ， 为 阿 贡 国 家 实验 室 、 橡 树 岭 国家 实验 室 、 劳 伦 斯 国家 实验 室 分 别 建设 一 台 下 一 代 超 级 计算 机 ， 将 计算 能 力 提 升 5 倍 以 上 。 英 特 尔 联合 克 雷 公司 为 阿 贡 国 
家 实验 室 建造 一 台 小 型 先导 机 和 一 台大 机 ， 英 伟 达 联合 IBM 为 橡树 岭 国 家 实验 室 、 劳 伦 斯 国家 实验 室 各 建造 一 台大 机 。 这 4 台 超 算 采 用 大 量 新 技术 、 新 部 件 ， 性 能 很 高 ， 具 体 配置 参见 表 1。 


表 1 下 一 代 超 算 的 配置 


Hs 极光 (Aurora) 西塔 (Theta ) 山峰 ( Summit) uz; (Sierra) 
比较 项 
CPU BLY Intel Xeon Intel Xeon NS TS 
oe ( 仅 用 做 管理 ) ( 仅 用 做 管理 ) | 


Wa BS BE Rg Intel Xeon Phi Intel Xeon Phi 
As fit ALTA 
— ( Knights Hill) ( Knights Landing) 


理论 峰值 180Pflops 8.5Pflops 150~300Pflops 100+ Pflops 
功 耗 1.7MW —10MW N/A 
iS >50 000 2^ 3400 个 N/A 


Lawrence Livermore 
(9$ (E Wr) 


E: Intel+ Cray Intel+ Cray IBM 


2017 年 测试 
2016 年 2018 年 


极光 (图 8) 是 美国 阿 贡 国家 实验 室 领先 计算 设备 处 的 下 一 个 重大 装备 ， 采 用 英特尔 可 扩展 系统 框架 和 第 二 代 Omni-Path 网 络 ，DRAM 内 存 和 持久 内 存 合 计 超过 7PB， 外 部 并 行 存储 使 用 英特尔 Lustre,， 
容量 超过 150PB。 持 久 内 存 可 能 使 用 英特尔 的 3DxPoint， 存 取 速 度 将 比 现在 的 闪存 快 1000 人 和信， 一 旦 成 功 ， 几 年 后 的 超 算 技 术 将 了 迎 来 重大 变革 。 详 情 参 见 其 官网 http://aurora.alcf.anl.gov/。 


IBM POWER9 


He AGIA volta Ht GIA volta 


实验 室 Argonne( 阿 页 ) Argonne ( 阿 页 ) Oak Ridge (橡树 岭 ) 


西塔 是 极光 的 小 型 先导 验证 系统 ， 让 应 用 开发 者 提前 熟悉 硬件 架构 和 软件 优化 方法 ， 官 方正 在 征集 典型 应 用 ， 详 见 官网 www.alcf.anl.gov/articles/alcf-selects-projects-theta-early-science- 


program。 


山峰 (图 9) 每 节点 内 存 大 于 512GB ( (HBM +DDR4) ) ，CPU 与 GPU 之 间 采 用 英 伟 达 NVLINK (5-12x PCle3) 高 速 互 连 ， 节 点 之 间 采 用 Dual Rail EDR-IB (23GB/s) 网 络 连 接 ， 详 情 可 参考 官 
网 www.olcf.ornl.gov/summit。 山 奇 的 体系 架构 与 山峰 相同 ， 将 服务 于 美国 国家 核 安全 管理 局 的 高 级 模拟 与 计算 项 目 。 


图 8 超 算计 算 机 : 极光 


图 9 ”超级 计算 机 : 山峰 
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很 多 技术 都 没什么 用 。 


刚 开 始 工作 的 时 候 ， 一 下 子 接触 到 很 多 新 鲜 技 术 ， 眼 花 绑 乱 ， 热 情 地 学 习 ， 参 考 同 事 撰写 的 教材 ， 网 上 查找 资料 ， 自 己 动手 练习 验证 。 过 了 一 年 ， 突 然 发 现 ， 这 些 所 谓 的 技术 不 过 是 别人 产品 的 使 用 方 
法 ， 只 要 有 耐心 、 时 间 ， 按 照 使 用 指南 一 步 步 操作 ， 智 力 正常 的 人 都 能 掌握 。 虽 然 知 道 很 多 技术 ， 但 都 是 皮毛 ， 无 法 形成 个 人 竞争 力 。 世 界 上 的 技术 浩如烟海 ， 永 远 学 不 完 ， 晴 蜂 点 水 只 会 浪费 生命 。 


然而 ， 后 来 发 现 ， 最 核心 的 竞争 力 还 是 技术 ， 原 来 看 轻 是 因为 没 接触 过 核心 技术 。 核 心 技术 非常 难 ， 不 是 一 朝 一 夕 能 掌握 的 ， 需 要 长 时 间 的 专注 研究 。 天 天 的 鼓 小 玩意 ， 沉 醉 于 热 练 操 作 现成 的 软 硬 
件 ， 到 头 来 什么 都 不 精 ， 吃 光学 生 时 期 积累 的 老 本 ， 就 只 剩 下 苟且 求生 。 必 须 从 烦琐 的 工作 中 解放 出 来 ， 将 时 间 投 在 重要 的 事情 上 。 


2012 年 初 第 一 次 接触 OpenACC， 觉 得 这 是 一 个 机 会 。 简 单 ， 人 们 会 喜欢 ; 新 鲜 出 炉 ， 同 一 起 点 ， 前 方 没有 权威 。OpenACC 资 料 匮乏， 除了 技术 规范 ， 没 有 系统 的 教材 。 我 试 着 翻译 OpenACC 规 范 ， 当 时 
没有 代码 示例 也 没 人 指导 ， 全 凭 猜测 和 自己 写 例子 验证 。1.0 版 只 有 32 页 ， 却 花费 了 半年 的 时 间 。 和 导语、 子 语 等 术语 都 思考 了 很 入， 语句 也 通读 了 多 遍 ， 保 证 从 中 文 就 能 完全 理解 ， 不 增 减 含义 。 担 心 水 平 不 
够 而 雪人， 用 了 网 名 “小 小 河 ”。 上 传 到 互联 网 ， 得 到 朋友 们 的 好 评 ， 备 受 鼓 茵 。 随 后 ， 翻 译 OpenACC 规 范 2.01/2.0a 版 本 ， 撰 写 例子 讲解 语法 ， 无 偿 地 帮 英 伟 达 宣传 ， 忙 得 不 亦 乐 乎 。 


积累 的 经 验 、 技 巧 ， 口 头 讲解 起 来 很 简单 ， 但 认真 写成 一 本 书 却 花费 了 1000 多 个 小 时 。 言 之 无 文 行 而 不 远 ， 如 果 本 书 能 给 读者 一 些 帮 助 ， 将 不 胜 欣 感 。 


4 年 来 ，OpenACC 一 直 没 有 大 火 ， 特 别 是 在 中 国 几 乎 没有 声响 。 原 因 可 能 有 两 个 : 英 伟 达 主 推 封闭 的 CUDA， 不 太 重视 OpenACC; 支持 得 最 好 的 PGI 编 译 器 是 收费 的 ， 对 学 生 而 言 价格 很 高 ， 阻 挡 了 尝 新 


用 户 。 现 在 形势 变 了 : 采用 简单 编程 语言 的 英特尔 融 核 处 理 器 正 开始 大 规模 商用 ， 和 势必 促使 英 伟 达 用 OpenACC 来 应 战 ;免费 的 GCC 6.1 编 译 器 已 经 支持 OpenACC， 即 将 进入 各 大 Linux 发 行 版 ， 用 户 会 大 量 涌 


Do 
被 枯燥 的 技术 填 满 生活 ， 偶 然 遇 到 一 小 股 潮 流 ， 幸 运 。 


也 将 本 书 献 给 未 来 的 某 人 。 


